特征共线性问题

最新推荐文章于 2024-08-13 20:42:21 发布

沈子恒

最新推荐文章于 2024-08-13 20:42:21 发布

阅读量5k

点赞数 2

分类专栏：深度学习与推荐算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shenziheng1/article/details/104846106

版权

特征共线性在线性回归中可能导致参数估计失真，但不会影响预测效果。解决方法包括PCA、正则化、逐步回归等。树模型如GBDT对共线性不敏感，因为其构建过程中会选择最有影响力的新特征。去除高度相关的特征能提升模型可解释性和训练速度。在使用特征重要性时，共线性可能导致相关特征被错误地排除。

摘要由CSDN通过智能技术生成

多重共线性是使用线性回归算法时经常要面对的一个问题。在其他算法中，例如决策树或者朴素贝叶斯，前者的建模过程时逐渐递进，每次都只有一个变量参与，这种机制含有抗多重共线性干扰的功能；后者假设变量之间是相互独立的。但对于回归算法来说，都要同时考虑多个预测因子，因此多重共线性不可避免。

多重共线性（Multicollinearity）是指线性回归模型中的自变量之间由于存在高度相关关系而使模型的权重参数估计失真或难以估计准确的一种特性，多重是指一个自变量可能与多个其他自变量之间存在相关关系。

1. LR中的共线性问题和解决方法

假设k个自变量的多元线性回归模型：

利用最小二乘法可得到参数的估计为：

如果X不是满秩的话，会有无穷多个解。如果变量之间存在共线性，那么X近乎是不满秩的，XTX近乎是奇异的。

从统计学的角度来看：

最低0.47元/天解锁文章

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。