逻辑斯蒂回归中特征共线性或强相关的影响

https://blog.csdn.net/lipengcn/article/details/82467082

 

粘贴增加一部分解释:

设想建立一个具有两变量X1和X2的线性模型,假设真实模型是Y=X1+X2。理想地,如果观测数据含有少量噪声,线性回归解决方案将会恢复真实模型。然而,如果X1和X2线性相关(大多数优化算法所关心的),Y=2*X1, Y=3*X1-X2或Y=100*X1-99*X2都一样好,这一问题可能并无不妥,因为它是无偏估计。然而,它却会使问题变得病态,使系数权重变得无法解释。

 

 

 

理论解释

共线性,指多元回归模型中,各自变量之中至少有两个完全或高度相关。

一方面,自变量之间的强相关,虽不会影响对应回归系数的大小,但会扩大其回归系数的方差。由于回归系数比上标准差,即检验该回归系数是否显著的 t 值。由于 t 值的降低,导致回归系数不显著,将无法拒绝一个错误的零假设。

另一方面,自变量之间的强相关,可能导致回归系数的正负方向与真实的相反,影响特征的可解释性。

可以认为 LR 来源于多元回归,将元与特征,自变量与特征,回归系数与权重一一对应就可以啦。

示例解释

首先,将问题推向极端,假设存在两个线性相关的特征 x1 和 x2,有 y = w1*x1 + w2*x2 + others。如果 x1 和 x2 分别代表速度特征 m/s 和 km/h,即 x2 = 3.6 * x1,则 y = (w1+3.6*w2)x1 + others。如果理论上速度和 y 的关系是 7 倍,即最优解 w1+3.6*w2 = 7。来看看寻找这个最优解时会发生什么。

一方面,值更大的特征对应的 w2 的变动对 7 的影响要大于值更小的特征对应的 w1 的变动。优化过程中,w2 的变化使得 w1 产生较大的变化,可能会出现,w1 变成负值得情况。可是前面说过 y 和速度是正相关的,如此以来,x1 与 y 成了负相关,显然有悖现实。当我们用权重来解释特征影响时,这会造成误解。

另一方面,以线性回归的梯度下降过程来看吧,省略无关项,w1 = w1 - λx1,w2 = w2 - λx2,假设全局学习率,可见 w2 更新的更快,如果初始点选择不合理,w1 的更新由于比 w2 更新快,有可能产生震荡,难以到达极值点。但通常提前会对 x1 和 x2 的特征进行归一化,还是会一致的优化到极值点,并不会震荡,只是方差还是较大。

然后,再从极端情况退回到一般情形,看看问题是不是必然由极端情况引起的。可以发现,震荡是由极端引起的,那么普通时候并不会震荡,也就不会影响 LR 的最优解。当时强相关的特征得不到确切解还是没有解决,即普通时候也会存在数值解不稳定。

OK,总结起来就是,LR 中特征强相关,不会影响最优性,但会造成权重的数值解不稳定。
--------------------- 
作者:TangowL 
来源:CSDN 
原文:https://blog.csdn.net/lipengcn/article/details/82467082 
版权声明:本文为博主原创文章,转载请附上博文链接!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值