[译]回归分析的基本假设

原文地址:《Going Deeper into Regression Analysis with Assumptions, Plots & Solutions》

引言

回归分析标志着预测建模的第一步.毫无疑问,它很容易实现,而且它的参数不会造成任何混乱,但是仅仅运行一行代码并不能解决问题.不只是看 R2 R 2 MSE,回归能说明更多的问题.

为了模型效果的提升,必须首先了解回归假设以及当假设被违反时如何修正它们.

回归假设

回归是一种参数方法,参数意味着模型需要为了分析需求对数据做出一定的假设.由此,当数据不再满足时,它很难得出较好的结果.

线性性 可加性

假设因变量为 Y Y ,自变量为X1 X2 X 2 ,则回归分析的默认假设为 Y=b+a1X1+a2X2+ϵ Y = b + a 1 X 1 + a 2 X 2 + ϵ .
线性性: X1 X 1 每变动一个单位, Y Y 相应变动a1个单位,与 X1 X 1 的绝对数值大小无关.
可加性: X1 X 1 Y Y 的影响是独立于其他自变量(如X2)的.

影响

模型将无法很好的描述变量之间的关系,极有可能导致很大的泛化误差.

检查方法

通过查看其残差值*vs拟合值*的图,能够清晰地表示出数据中的多项式.相较于图一(残差随机分布),图二的残差明显呈现了某种二次型趋势,说明回归模型没有抓住数据的某些非线性特征.

解决办法

通过对 X X 做非线性变换改善,如log(X),XorX2.

无自相关性

残差项之间不应该相关.违反这一原则的被称为自相关性.

影响

通常发生在时间序列里面,后一项依赖于前一项.当自相关性发生的时候,我们预测值的标准差往往比真实的小,进而会导致置信区间变窄.同时,较低的标准差会导致P值较小,这会让我们得出错误的统计显著的参数.

例如,设没有自相关性的情况下,自变量 X X 的系数为15.02,而标准差为2.08。假设同一样本是有自相关性的,测得的标准差可能会只有1.20,所以置信区间也会从(12.94,17.10)缩小到(13.82,16.22).

检查办法

通过Durbin – Watson (DW)统计公式计算.

DW=t=2T(etet1)2t=1Tet2

该统计量的值落在(0,4)内,DW=2意味着没有自相关性,0

独立性

自变量之间应该相互独立,违反这一原则被称为多重共线性.

影响

违反会导致模型不能正确找出自变量之间的关系.同时会导致标准差偏高,因此会导致置信区间变宽以至于无法对参数进行精确估计.

检查办法

首先,可以通过观察自变量的散点图(Scatter Plot)来进行初步判断.

然后,针对可能存在多重共线性性的变量,我们观察其方差膨胀系数(VIF–Variance Inflation Factor).
假设回归模型为:

Y=β0+β1X1+β2X2++βkXk+ε Y = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β k X k + ε

对于变量 Xj X j ,可证得,其估计系数 βj β j 的方差为:

var^(β^j)=s2(n1)var^(Xj)11R2j v a r ^ ( β ^ j ) = s 2 ( n − 1 ) v a r ^ ( X j ) ⋅ 1 1 − R j 2

其中其中唯一与其它自变量有关的值是 R2j R j 2 R2j R j 2 Xj X j 关于其它自变量回归的残差:

Xj=β0+β1X1+β2X2++βj1Xj1+βj+1Xj+1++βkXk+ε X j = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β j − 1 X j − 1 + β j + 1 X j + 1 + ⋯ + β k X k + ε

11R2j 1 1 − R j 2 便称作VIF,若VIF<3,说明该变量基本不存在多重共线性性问题,若VIF>10,说明问题比较严重.

误差项的方差应该是常数

这一现象被称为同方差性,违反的则被称为异方差性.

影响

通常异方差由异常值导致,在回归模型中,这些异常值可能会被给予过大的权重,以至于影响模型的准确性,同时会导致置信区间相较于正常情况不确定地偏大或者偏小.

检查办法

可以使用残差VS拟合值,如果异方差存在,会在图中看到明显的漏斗状,观察标准化后的残差VS估计值图,如果异方差存在,则图中应该可以看到明显的趋势性.同时也可以使用Breusch-Pagan / Cook–Weisberg test.

残差VS拟合值

解决办法

Y Y 进行变换,如log(Y)orY,也可以使用加权最小二乘法来解决这个问题.

误差项应该是高斯分布

影响

如果违反了这一假设,置信区间也会不确定地变大或者变小.

检查办法

可以通过查看QQ图(如下),如果图中的散点呈直线状表示数据为高斯分布,否则为非高斯分布,还有另外的方法如通过Kolmogorov-Smirnov test, Shapiro-Wilk test进行检查.

解决办法

X X Y的非线性变换会改善违例情况.


知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值