训练模型前如何处理特征之间的相关性

最新推荐文章于 2024-05-23 23:18:13 发布

lalahu_123

最新推荐文章于 2024-05-23 23:18:13 发布

阅读量1w

点赞数 5

分类专栏：机器学习特征筛选

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42835182/article/details/84104323

版权

机器学习同时被 2 个专栏收录

1 篇文章

订阅专栏

1 篇文章

订阅专栏

本文探讨了在逻辑回归及GBDT等模型中特征相关性的影响。指出统计学与机器学习在处理特征相关性上的差异，强调树模型能自然处理线性及非线性相关性。并分享了在特定条件下，即使变量高度相关，模型效果未见明显提升的现象。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景：

逻辑回归中，变量间的相关性是不可接受的，总要保持较低的VIF值。在使用GBDT训练模型时，发现排名靠前的几个变量，线性相关性达到了97%，这种变量冗余的情况下训练的模型，即便增加了变量，效果没什么提升。因此，我们到底要不要考虑特征间的相关性？还是说只有线性模型需要考虑特征间的相关性，非线性模型就不用考虑了？

以下是相关搜索，待我搞清楚之后填坑：

1.特征筛选方法
https://www.cnblogs.com/hhh5460/p/5186226.html

2.第6条，线性模型中需考虑特征间的相关关系
https://www.cnblogs.com/zhizhan/p/5039148.html

3.线性模型与非线性模型
https://blog.csdn.net/wbcnb/article/details/78306970

4.特征筛选对模型效果有提升
https://blog.csdn.net/cicilover/article/details/77854621

20190926填坑：
尝试着再聊一下这个话题。
首先，这个问题的问法是有问题的，统计学的逻辑回归和机器学习的逻辑回归的目标不同，统计学中默认有一个潜在的规律，调模型时有各种限制来满足假设条件（VIF，线性相关就是这样），来找到那个潜在的规律，而机器学习不同，只关心预测值和真实值的偏差，甚至train和oot上的悬殊差别也能接受，只要oot上AUC越高，就可以。如果明白了这个差别，就不会问出这个问题了。

再详细讲模型类型和处理变量相关性之间的关系。

树模型，生成的时候更多考虑信息增益，所以说它天然带有剔除线性相关的特性，更进一步它也可以规避掉非线性的相关关系。至于为什么会出现我之前遇到的问题（数据不可已不可考查），是和数据大小变量多少有关，指定了树的大小，总是要矮子里面拔将军。下次遇到类似情况我可以验证一下。

博客等级

码龄7年

6
原创

12
点赞

74
收藏

13
粉丝

关注

私信

热门文章

分类专栏

最新评论

李宏毅深度学习2021春-笔记
CSDN-Ada助手: 非常感谢CSDN博主分享的《李宏毅深度学习2021春-笔记》。这篇博客详细介绍了深度学习的相关知识，对于想学习深度学习的读者来说非常有帮助。我觉得博主可以继续深入探讨深度学习在计算机视觉中的应用，例如如何使用深度学习算法进行图像分类、目标检测等任务。这样的技术文章对其他用户也会非常有启发和帮助。下一篇博客建议可以围绕着“深度学习在计算机视觉中的应用”这个主题展开写作，相信会有更多读者受益于此。期待博主的新作品！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
Python模型上线 - 对sklearn2pmml转换自定义函数的探索
你好啊靓仔: 官网提供的例子是numpy的函数，在 FunctionTransformer里面的自定义函数替换成np.abs，可以顺利导出，问题应该是在自定义函数上。mapper.feature 查看传入的自定义函数如下，“0x000002A500E3B0F0” 应该是一个内存位置，转成PMML文件时没办法把这个函数定义带出来。楼主查的好细我也试了自定义函数,不行 20200531
Python模型上线 - 对sklearn2pmml转换自定义函数的探索
baidu_33587463 回复 joyzhou28: 目前支持FunctionTransformer，大多数场景应该够用了吧
Python 解析json数组
豹豹大人: 代码块```后添加语言类型
Python模型上线 - 对sklearn2pmml转换自定义函数的探索
joyzhou28: sklearn2pmml项目是不是目前还不能支持自定义transformer

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。