训练模型前如何处理特征之间的相关性

背景:

逻辑回归中,变量间的相关性是不可接受的,总要保持较低的VIF值。在使用GBDT训练模型时,发现排名靠前的几个变量,线性相关性达到了97%,这种变量冗余的情况下训练的模型,即便增加了变量,效果没什么提升。因此,我们到底要不要考虑特征间的相关性?还是说只有线性模型需要考虑特征间的相关性,非线性模型就不用考虑了?

以下是相关搜索,待我搞清楚之后填坑:

1.特征筛选方法
https://www.cnblogs.com/hhh5460/p/5186226.html

2.第6条,线性模型中需考虑特征间的相关关系
https://www.cnblogs.com/zhizhan/p/5039148.html

3.线性模型与非线性模型
https://blog.csdn.net/wbcnb/article/details/78306970

4.特征筛选对模型效果有提升
https://blog.csdn.net/cicilover/article/details/77854621

20190926填坑:
尝试着再聊一下这个话题。
首先,这个问题的问法是有问题的,统计学的逻辑回归和机器学习的逻辑回归的目标不同,统计学中默认有一个潜在的规律,调模型时有各种限制来满足假设条件(VIF,线性相关就是这样),来找到那个潜在的规律,而机器学习不同,只关心预测值和真实值的偏差,甚至train和oot上的悬殊差别也能接受,只要oot上AUC越高,就可以。如果明白了这个差别,就不会问出这个问题了。

再详细讲模型类型和处理变量相关性之间的关系。

树模型,生成的时候更多考虑信息增益,所以说它天然带有剔除线性相关的特性,更进一步它也可以规避掉非线性的相关关系。至于为什么会出现我之前遇到的问题(数据不可已不可考查),是和数据大小变量多少有关,指定了树的大小,总是要矮子里面拔将军。下次遇到类似情况我可以验证一下。

  • 4
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值