原文地址:《Going Deeper into Regression Analysis with Assumptions, Plots & Solutions》
引言
回归分析标志着预测建模的第一步.毫无疑问,它很容易实现,而且它的参数不会造成任何混乱,但是仅仅运行一行代码并不能解决问题.不只是看 R2 R 2 和MSE,回归能说明更多的问题.
为了模型效果的提升,必须首先了解回归假设以及当假设被违反时如何修正它们.
回归假设
回归是一种参数方法,参数意味着模型需要为了分析需求对数据做出一定的假设.由此,当数据不再满足时,它很难得出较好的结果.
线性性 可加性
假设因变量为 Y Y ,自变量为, X2 X 2 ,则回归分析的默认假设为 Y=b+a1X1+a2X2+ϵ Y = b + a 1 X 1 + a 2 X 2 + ϵ .
线性性: X1 X 1 每变动一个单位, Y Y 相应变动个单位,与 X1 X 1 的绝对数值大小无关.
可加性: X1 X 1 对 Y Y 的影响是独立于其他自变量(如)的.
影响
模型将无法很好的描述变量之间的关系,极有可能导致很大的泛化误差.
检查方法
通过查看其残差值*vs拟合值*的图,能够清晰地表示出数据中的多项式.相较于图一(残差随机分布),图二的残差明显呈现了某种二次型趋势,说明回归模型没有抓住数据的某些非线性特征.
解决办法
通过对 X X 做非线性变换改善,如.
无自相关性
残差项之间不应该相关.违反这一原则的被称为自相关性.
影响
通常发生在时间序列里面,后一项依赖于前一项.当自相关性发生的时候,我们预测值的标准差往往比真实的小,进而会导致置信区间变窄.同时,较低的标准差会导致P值较小,这会让我们得出错误的统计显著的参数.
例如,设没有自相关性的情况下,自变量 X X 的系数为15.02,而标准差为2.08。假设同一样本是有自相关性的,测得的标准差可能会只有1.20,所以置信区间也会从(12.94,17.10)缩小到(13.82,16.22).
检查办法
通过Durbin – Watson (DW)统计公式计算.
该统计量的值落在(0,4)内,DW=2意味着没有自相关性,0
独立性
自变量之间应该相互独立,违反这一原则被称为多重共线性.
影响
违反会导致模型不能正确找出自变量之间的关系.同时会导致标准差偏高,因此会导致置信区间变宽以至于无法对参数进行精确估计.
检查办法
首先,可以通过观察自变量的散点图(Scatter Plot)来进行初步判断.
然后,针对可能存在多重共线性性的变量,我们观察其方差膨胀系数(VIF–Variance Inflation Factor).
假设回归模型为:
对于变量 Xj X j ,可证得,其估计系数 βj β j 的方差为:
其中其中唯一与其它自变量有关的值是 R2j R j 2 , R2j R j 2 是 Xj X j 关于其它自变量回归的残差:
11−R2j 1 1 − R j 2 便称作VIF,若VIF<3,说明该变量基本不存在多重共线性性问题,若VIF>10,说明问题比较严重.
误差项的方差应该是常数
这一现象被称为同方差性,违反的则被称为异方差性.
影响
通常异方差由异常值导致,在回归模型中,这些异常值可能会被给予过大的权重,以至于影响模型的准确性,同时会导致置信区间相较于正常情况不确定地偏大或者偏小.
检查办法
可以使用残差VS拟合值,如果异方差存在,会在图中看到明显的漏斗状,观察标准化后的残差VS估计值图,如果异方差存在,则图中应该可以看到明显的趋势性.同时也可以使用Breusch-Pagan / Cook–Weisberg test.
解决办法
对 Y Y 进行变换,如,也可以使用加权最小二乘法来解决这个问题.
误差项应该是高斯分布
影响
如果违反了这一假设,置信区间也会不确定地变大或者变小.
检查办法
可以通过查看QQ图(如下),如果图中的散点呈直线状表示数据为高斯分布,否则为非高斯分布,还有另外的方法如通过Kolmogorov-Smirnov test, Shapiro-Wilk test进行检查.
解决办法
X X 或的非线性变换会改善违例情况.
本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。