机器学习面试必知：LR中的共线性问题和解决方法

最新推荐文章于 2023-08-02 22:17:23 发布

Neekity

最新推荐文章于 2023-08-02 22:17:23 发布

阅读量3.9k

点赞数 1

分类专栏：机器学习统计学习面试回归文章标签：共线性线性回归

本文链接：https://blog.csdn.net/neekity/article/details/88056242

版权

机器学习同时被 3 个专栏收录

39 篇文章 1 订阅

订阅专栏

面试

39 篇文章 3 订阅

订阅专栏

统计学习

23 篇文章 1 订阅

订阅专栏

多重共线性是使用线性回归算法时经常要面对的一个问题。在其他算法中，例如决策树或者朴素贝叶斯，前者的建模过程时逐渐递进，每次都只有一个变量参与，这种机制含有抗多重共线性干扰的功能；后者假设变量之间是相互独立的。但对于回归算法来说，都要同时考虑多个预测因子，因此多重共线性不可避免。

我们先来看共线性的原理，假设k个自变量的多元线性回归模型： $y=\theta_{0}+\theta_{1}x_{1}+... +\theta_{k}x_{k}=\theta ^{T}x+\epsilon$ $\epsilon \sim N(0,\sigma^{2})$
利用最小二乘法可得到参数的估计为： $\hat{\theta}=X^{\dagger}y=(X^{T}X)^{-1}X^{T}y$ 如果X不是满秩的话，会有无穷多个解。如果变量之间存在共线性，那么X近乎是不满秩的， $X^{T}X$ 近乎是奇异的。
我们从统计学的角度来看： $Var(\hat{\theta}-\theta)=Var[(X^{T}X)^{-1}X^{T}\epsilon]$ $Var(\hat{\theta})=\sigma^{2}(X^{T}X)^{-1}$ $Var(\hat{\theta}_{i})=\frac{\sigma^{2}}{(n-1)Var(x_{j})}\cdot\frac{1}{1-R_{i}^{2}}$ 如果方差膨胀因子 $\frac{1}{1-R_{i}^{2}}$ 很大时，也就是 $R_{i}^{2}$ 趋向于1时，方差会变得异常大。
解决方法如下：