第二章 线性回归:机器学习基础技术
2.1单变量回归
线性回归必须通过假设检验,总结如下:
1)线性:预测变量与响应变量之间的关系是线性的。如果不是线性的要进行数据转换(对数转换、多项式转换、指数转换等)。
2)误差不相关:在时间序列和面板数据中,En=BETAn-1是一个常见的问题。
3)同方差性:误差是正态分布的,并具有相同的方差。即对于不同的输入值,误差的方差是一个固定值。
4)非共线性:两个预测变量之间不存在线性关系。即特征之间不存在相关性。
5)存在异常值:异常值会严重影响参数估计。理想情况下,必须在使用线性回归拟合模型之前就除去异常值。
2.2多变量线性回归
2.2.1业务理解
2.2.2数据理解和数据准备
2.2.3模型构建和模型评价
特征选择这里介绍最优子集回归和逐步回归方法。
前向逐步选择从一个零特征模型开始,然后每次添加一个特征,直到所有特征添加完毕。在这个过程中,被添加的选定特征建立的模型具有最小的RSS。所以理论上,第一个选定的特征应该能最好解释响应变量,依此类推。
后向逐步回归从一个包含所有特征的模型开始,每次删除一个起最小作用的特征。
最优子集回归是逐步回归一个可接受的替代方案。该算法使用所有可能的特征组合来拟合模型,所以如果有三个特征,将生成七个模型。然后和逐步回归一样,分析者需要应用自己的判断和统计分析来选择最优的模型。当特征数目非常多时,工作量非常大。
4种用于特征选择的统计方法:赤池信息量准则,马洛斯的Cp,贝叶斯信息量准则和修正R方。目标都是建立一个尽可能简约的模型,即对模型复杂度进行“惩罚”。
为了研究共线性问题,引入方差膨胀因子(VIF)。VIF是一个比率,分子为使用全部特征拟合模型时该特征的系数的方差,分母为仅使用该特征拟合模型时这个特征的系数的方差。VIF最小值是1,大于5一般认为是存在严重的共线性。
交叉验证
留一法交叉验证(LOOCV):检测预测误差平方和。
2.3线性模型中的其他问题
2.3.1定性特征
如果我们有一个具有两个水平的特征,比如性别,可以建立一个指标,或称“虚拟特征”。任意地将一个水平设为1,另一个水平设为0。如果特征的水平多于两个,可以建立n-1个指标。
2.3.2交互项