多重共线性指自变量间有现象关系,这会导致模型不稳定,因为建模没有考虑到每个变量间的线性关系。但是适当的共线性是可行的比如衍生变量。多重共线性还会导致的问题是只有线性相关的一类变量入模了,其他维度的变量被挡在了外面。
多重共线性的监测
1、可将自变量逐一作为因变量做线性回归,其中
R
2
R^{2}
R2高的说明有多重共线性问题。
R
2
R^{2}
R2=SSR/SSE,预测与均值的差/真实值与均值的差。
2、VIF = 1/1-
R
2
R^{2}
R2 ,VIF大于10说明共线性严重。
解决办法
1、手动去除
2、逐步回归法
3、岭回归:以线性回归为例,对参数β的估计是最小二乘法,求真实值-模型值的最小值来估计参数。
但是在存在多重共线性的情况下可能存在共线性的几个变量对应的参数值比较大,而其他维度变量的参数分到的权重就很小。岭回归方法加入了λ*βi的平方,这样限制了多重共线性情况下的βi不能很大,其他维度变量能分到一定的权重。
4、降维、主成分分析、因子分析合并变量