在线性回归模型时,存在这样一种假设,即各个解释变量之间不存在很强的关系。如果解释变量之间存在很强的线性相关关系,就认为数据之间存在共线性问题。
1、什么是多重共线性
在解释变量中,有某一解释变量可由其他解释变量线性表出。
2、多重共线性有什么影响
共线性会导致回归参数不稳定,即增加或删除一个样本点或特征,回归系数的估计值会发生很大变化。 这是因为某些解释变量之间存在高度相关的线性关系,XTX会接近于奇异矩阵,即使可以计算出其逆矩阵,逆矩阵对角线上的元素也会很大,这就意味着参数估计的标准误差较大,参数估计值的精度较低,这样,数据中的一个微小的变动都会导致回归系数的估计值发生很大变化。
总结下,共线性对线性模型影响
回归模型缺乏稳定性。样本的微小扰动都可能带来参数很大的变化;
难以区分每个解释变量的单独影响;
参数的方差增大;
变量的显著性检验失去意义;
影响模型的泛化误差;
3、多重共线性诊断
- 发现系数估计值的符号不对;
- 某些重要的解释变量t值低,而R方不低
- 当一不太重要的解释变量被删除后,回归结果显著变化
4、多重共线性处理
主要方法有:增加样本量、变量聚类、方差膨胀因子、相关系数、逐步回归、PCA、L1 L2正则化
- 共线性问题并不是模型的设定错误,它是一种数据缺陷,可以通过增加样本量来解决
- 在特征比较多的时候,先变量聚类&