目录
前言
内容:如何用R语言
多重共线性的识别和处理
一、多重共线性的定义?
多重共线性是指在多元回归模型中,自变量之间存在线性相关关系的现象。
具体来说,对于一组自变量X1, X2, ..., Xm,如果存在一组系数a0, a1, ..., am
使得线性等式
a0X1 + a1X2 + ... + amXm = 0
对所有情况都成立,即至少存在一个Xk,它可以由其他变量线性表示,即
Xk = c1X1 + c2X2 + ... + cmXm
则称X1, X2, ..., Xm之间存在完全的多重共线性,其相关系数为1。
如果上述等式对所有数据都不成立,则它们之间没有相关性,相关系数为0。
如果上述等式近似地对所有数据成立,则称X1, X2, ..., Xm之间存在近似的多重共线性,其相关系数介于0和1之间。
多重共线性会导致回归模型的不稳定性和不准确性。当存在多重共线性时,OLS估计的回归系数可能变得不可靠,其标准误差增大,拟合效果和预测精度降低。因此,处理多重共线性是进行多元回归分析时需要注意的重要问题。
二、出现的原因和影响
1.原因
多重共线性产生的原因:
1)经济变量随时间的变化过程存在共同变化趋势
2)用截面数据建模
3)模型采用较多的滞后变量
4)变量选取不当。
2.影响
1)完全共线性下参数估计量不存在
2)一般共线性下普通最小二来法参数估计量失效:
3)参数估计量解释不合理:
4)变量的显著性检验失去意义,模型的预测功能失效
三、经验识别共线性的方法
1)相关系数:计算各自变量之间的相关系数。如果某些自变量之间的相关系数值很大(接近于1或-1),则可能存在共线性。
2)变量符号与预期相反:观察回归系数的符号是否与专业知识或一般经验相反。如果某个变量的回归系数符号与预期相反,可能是因为与其他自变量存在共线性。
3)T检验和F检验:对重要自变量进行t检验,如果结果不显著,即p值较大,可能是因为该自变量与其他自变量存在共线性。另外,当F检验测定通过的R²值很大,但t检验却大多不显著时,也可能存在共线性。
4)稳定性检验:增减一个变量或一个观测值,观察回归系数是否明显变化。如果重要自变量的回归系数置信区间明显过大,可能是因为存在共线性。
5)自变量的线性组合:检查自变量中是否存在某一变量是另一部分自变量的完全或近似完全的线性组合。如果存在这种情况,可能会导致共线性。
6)多重相关性:对于一般的观测数据,如果样本量过少(接近于变量的个数或少于变量的个数),多重相关性就会经常存在。
四、用 R 简单识别共线性的方法
1)相关分析:计算自变量两两之间的相关系数及其对应的P值,一般认为相关系数 >0.7,且P<0.05时可考虑自变量之间存在共线性,可以作为初步判断多重共线性的一种方法。
2)容忍度:tolerance,容忍度越小,说明存在共线性的风险越大。一般 <0.2 的变量认为存在共线性
3)R中主要考虑Kappa和 VIF
方差膨胀因子:简称为VIF,方差膨胀因子越高,说明存在共线性的可能性越大。
实践中,往往将VIF>10的变量定义为存在共线性或 Kappa 大于 1000认为存在多重共线性。
kappa(cor(fit))
vif(fit) # car 包
五、为了解决多重共线性问题,可以采取以下方法
逐步回归(Stepwise Regression):逐步回归是一种变量选择方法,它通过逐步添加或删除自变量来构建模型。逐步回归可以根据统计指标(如F统计量、AIC、BIC等)来选择最佳模型,从而剔除多重共线性较强的变量。先逐个对解释变量进行显著性检验,检验通过则引入,然后对已经进入的变量再逐个进行一次显著性检验,如果检验不通过,则说明该变量已经变得不显著,则应将该变量剔除。重复该步骤多次,直到没有变量引入且没有变量剔除为止。从而,最后留下来的变量都是对因变量影响显著的,即重要变量。
岭回归(Ridge Regression):岭回归通过引入一个正则化项来调整回归系数的大小,从而减小多重共线性的影响。正则化项可以控制回归系数的平滑度,使得模型更加稳定。岭回归可以有效降低多重共线性对回归模型的影响。
主成分回归(Principal Component Regression):主成分回归将自变量进行主成分分析,将原始自变量转换为一组无关的主成分,并利用这些主成分进行回归分析。主成分回归可以降低自变量之间的相关性,从而减小多重共线性的问题。