本文主要记录一下相关的概念…..
Regression
之前研究过的一些通过监督学习解决的分类问题,都具有一个共同的特征,就是其输出的类别都是离散型变量。
当我们需要去预测的对象类型是连续类型的时候,该怎么去解决它呢?
回归分析作为其解决的方法之一,它也属于监督学习算法,但是是一种特定类型的监督学习,不同于分类。
最简单的例子就是线性回归(Linear Regression),正如我们在高中课本中学到的那样,对于在二维坐标轴中一些散点数据集,我们可以进行回归分析得到一条直线(称作回归方程 - Regression equation),用于预测纵坐标的值。而其中使用的方法为最小二乘法。
评估线性回归方程的拟合程度:
1、 SSE (Sum of Squared Error),误差平方和。越小说明直线的拟合程度越好。
2、 R2 ,取值介于0 - 1
,越接近1,说明拟合效果越好!上述值具体的计算方法:详细的线性回归的解释
逻辑回归(Logistic Regression):
逻辑回归的模型 是一个非线性模型,sigmoid函数,又称逻辑回归函数。但是它本质上又是一个线性回归模型,因为除去sigmoid映射函数关系,其他的步骤,算法都是线性回归的。可以说,逻辑回归,都是以线性回归为理论支持的。只不过,线性模型,无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。
Code
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit (x_train, y_train)
y_pre = reg.predict(x_test)
# reg.coef_ 表示得到的斜率
# reg.intercept_ 表示得到的截距
其他的回归模型
其他一些回归模型如:多项式回归,逐步回归,岭回归(Ridge Regression),套索回归(Lasso Regression),ElasticNet回归;
在回归分析中,经常会出现多重共线性问题,那是因为我们在研究数据的过程中,总是会出现一些多维度的数据,这个时候,这些高纬度的数据就会出现多重共线性以及变量选择的问题;
如何消除多重共线性确定最佳模型,是回归分析的一个重点,套索回归模型和的作用和岭回归有些类似,都是为了减少自变量的多重共线性的影响的一种建模方法;
Min:SSE+λ⋅∑|coefi|这个方法和岭回归不同的是,它在参数估计的同时能够实现自变量精简的估计方法,其实质就是加一定的约束条件,就是用模型的回归系数的绝对值之和函数作为惩罚(正则化项)来压缩模型系数,使得一些回归系数变小。
将绝对值较小或者影响因子较小的自变量的回归系数置为零,这样做的后果和岭回归有些类似,就是牺牲了一定的估计偏差,但是能降低预测的方差从而提高预测的精准性;
这样也就达到了 特征选择 的目,在保证一定预测正确率的情况下简化了回归模型!(消除了某些特征)