- 多重共线性及其所产生的问题
- 多重共线性
当回归模型中两个或者两个以上的自变量彼此相关时,则称为回归模型中存在多重共线性
- 产生问题
a、分析结果混乱,甚至会引入分析错误
- 多重线性回归的判别
- 方法一
对各自变量之间的相关系数,并对个相关系数进行显著性检验,如果有一个或者多个显著说明存在多重共线问题
实际中用Excel--数据分析--相关系数,求得之间的相关系数,然后再查 ta/2(n-2)进行比较 ,结果大于与 ta/2(n-2)则拒绝原假设,表示显著
- 方法二
a、模型中各对自变量之间显著相关
b、当模型的线性关系检验(F检验)显著时,几乎所有回归系数
的 t 检验却不显著
c、回归系数的正负号与预期的相反
d、容忍度(tolerance)与方差扩大因子(variance inflation factor ,VIF)
1、某个自变量的容忍度等于1减去该自变量为因变量而其他 k- 1 个变量为预测变量是所得到的线性回归模型的判定系数,即 1 -
,容忍度越小,多重共线越严重
通常认为容忍度小于 0.1 时,存在严重的多重共线性。
2、方差扩大因子自等于容忍度的导数,VIF = 1 / 1-
。VIF越大,多重共线性越严重。一般认为VIF 大于 10时,存在严重的多重共线性
- 多重共线性问题的处理
书中提供的两种方法
a、将一个或多个相关的自变量从模型中提出,保留的自变量尽可能的不相关
如:贷款余额与贷款项目相关系数最高,从定性角度看累计应收贷款与贷款余额之间也有很强的相关系数,因此将贷款项目个数累计应收贷款这两个自变量提出,建立不良贷款(y)与贷款余额(x1)和固定资产投资额(x2)的线性模型
b、如果要在模型中保留所有的自变量,那就应该
避免根据 t 统计量对单个参数 β进行检验
对因变量 y 值的推断(估计或预测)
限定在自变量样本值的范围内
参考链接:
多重共线性问题的几种解决方法_百度文库
注:多重共线性问题带来的主要麻烦 是对单个回归系数的解释和检验,在求因变量的直线区间和预测区间时一般不会受影响,但必须保证用于估计和预测的自变量的值是在样本数据范围之内,因此如果仅仅是为了估计或预测,可以将所有变量都保留在模型中