多重共线性的诊断与对策

一、多重共线性的确认:

做出自变量间的相关系数矩阵:如果相关系数超过0.9的变量在分析时将会存在共线性问题。在0.8以上可能会有问题。但这种方法只能对共线性作初步的判断,并不全面。

1. 容忍度(Tolerance)

有 Norusis 提出,即以每个自变量作为应变量对其他自变量进行回归分析时得到的残差比例,大小用1减决定系数来表示。该指标越小,则说明该自变量被其余变量预测的越精确,共线性可能就越严重。陈希孺等根据经验得出:如果某个自变量的容忍度小于0.1,则可能存在共线性问题。

2. 方差膨胀因子(Variance inflation factor, VIF):

由Marquardt于1960年提出,实际上就是容忍度的倒数。VIF都是大于1的数,一般认为小于5时几近没有多重共线性,在[5, 10)间时存在一定的多重共线性,大于10则有需要关注的多重共线性,这时应当对变量进行调整,大于100时有严重册多重共线性,此时后续回归的系数具有高度可变性,故系数不可信。

3. 特征根(Eigenvalue)

该方法实际上就是对自变量进行主成分分析,如果相当多维度的特征根等于0,则可能有比较严重的共线性。

4. 条件指数(Condition Idex)

由Stewart等提出,当某些维度的该指标数值大于30时,则能存在共线性。
K ( A ) = ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ A − 1 ∣ ∣ ∣ ∣ A ∣ ∣ = max ⁡ x ∣ ∣ A x ∣ ∣ ∣ ∣ x ∣ ∣ ∣ ∣ A − 1 ∣ ∣ = max ⁡ y ∣ ∣ A − 1 y ∣ ∣ ∣ ∣ y ∣ ∣ = 1 / min ⁡ y ∣ ∣ y ∣ ∣ ∣ ∣ A − 1 y ∣ ∣ = 1 / min ⁡ x ∣ ∣ A x ∣ ∣ ∣ ∣ x ∣ ∣ K(A) = ||A|| \cdot ||A^{-1}||\\ ||A|| =\max\limits_{x} \frac{||Ax||}{||x||} \\ ||A^{-1}|| = \max\limits_{y} \frac{||A^{-1}y||}{||y||} = 1/\min\limits_y\frac{||y||}{||A^{-1}y||} = 1/\min\limits_x\frac{||Ax||}{||x||} K(A)=AA1A=xmaxxAxA1=ymaxyA1y=1/yminA1yy=1/xminxAx其中, y = A x y=Ax y=Ax
∣ ∣ A ∣ ∣ ||A|| A为矩阵 A A A的范数,表示 A A A对向量 x x x的拉伸能力, ∣ ∣ A − 1 ∣ ∣ ||A^{-1}|| A1为矩阵 A − 1 A^{-1} A1的范数,表示 A − 1 A^{-1} A1对向量 x x x的压缩能力。二者乘积即为Kappa条件数 K ( A ) K(A) K(A),表示了矩阵 A A A对向量的拉伸与压缩能力。 K ( A ) K(A) K(A)越大, A A A对向量 x x x的干涉(拉伸与压缩)能力越强,共线性越强,解的稳定性越差。故当 κ ( A ) \kappa(A) κ(A)大于一定值时(),认为 A A A存在多重共线性。

  • kappa<100则认为有共线性程度很小。
  • 100<=kappa<=1000则认为存在中等程度或者较强的共线性。
  • 若kappa>1000则认为存在很严重的共线性
#R语言代码:
kappa(A)

在这里插入图片描述

二、多重共线性的对策:

【1】增大样本量,可部分的解决共线性问题
【2】采用多种自变量筛选方法相结合的方式,建立一个最优的逐步回归方程。
【3】从专业的角度加以判断,人为的去除在专业上比较次要的,或者缺失值比较多,测量误差比较大的共线性因子。
【4】进行主成分分析,用提取的因子代替原变量进行回归分析。
【5】进行岭回归分析,它可以有效的解决多重共线性问题。
【6】进行通径分析(Path Analysis),它可以对应自变量间的关系加以精细的刻画。

  • 1
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
SPSS(统计软件包for社会科学)中的多重共线性诊断表是用来分析和解决多重共线性问题的工具。多重共线性是指在回归分析中,自变量之间存在高度相关性,这可能对回归模型的结果产生负面影响。 在SPSS中,多重共线性诊断表提供了一些关键指标,帮助判断自变量之间是否存在多重共线性。以下是一些常见指标的解释: 1. 文本解释:该列提供了相应自变量的名称。 2. B:B系数表示自变量对因变量的回归系数。当存在多重共线性时,回归系数可能变得不稳定,难以解释。 3. Beta:Beta系数表示自变量相对于其他自变量的贡献,因此更稳定。当自变量之间存在多重共线性时,Beta系数可能更可靠。 4. 标准误差:标准误差越高,表示回归系数的估计越不准确。在存在多重共线性时,标准误差上升。 5. T:T值是判断自变量回归系数显著性的指标。当T值较大时,表示自变量对因变量的影响较强。 6. VIF(方差膨胀因子):VIF指标用于评估多重共线性的严重程度。当VIF值大于1时,存在多重共线性的可能性增加。通常,VIF值大于10被认为是多重共线性的问题。 根据多重共线性诊断表中的指标,我们可以判断自变量之间是否存在多重共线性问题。如果存在多重共线性,我们需要采取相应的解决措施。例如,可以通过剔除高相关性的自变量、合并相关的自变量或者使用因子分析等方法来降低共线性的影响。 多重共线性是回归分析中常见的问题之一,了解和解读SPSS多重共线性诊断表能够帮助分析人员更好地评估模型的准确性和稳定性,从而做出更可靠的统计推断和预测。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值