借鉴前人,总结用作自己日常复习学习,待补充*
线性回归(LinearRegression)原理+代码实现
1. 线性回归原理
1.1 五个前提假设
(1)线性性 & 可加性
假设因变量为Y,自变量为X1,X2,则回归分析的默认假设为Y=b+a1X1+a2X2+ε。
线性性:X1每变动一个单位,Y相应变动a1个单位,与X1的绝对数值大小无关。
可加性:X1对Y的影响是独立于其他自变量(如X2)的。
(2)误差项(ε)之间应相互独立。
若不满足这一特性,我们称模型具有自相关性(Autocorrelation)。
检验方法:使用DW统计量,如果DW<1或DW>3,则自相关性已经达到了需要示警的水平。DW=2意味着没有自相关性。
正常误差项是随机的,对y影响有大有小,期望值是0,一旦误差项不独立了(ε1和ε2相关),说明误差项不随机,不随机即是可预测的,即找个因变量来表示这一部分误差,误差项中就会含有一部分影响y,那么此时模型就是不完整的,预测的y值也是错误的。
(3)自变量(X1,X2)之间应相互独立。
若不满足这一特性,我们称模型具有多重共线性性(Multicollinearity)。
当多重共线性性出现的时候,变量之间的联动关系会导致我