背景:
逻辑回归中,变量间的相关性是不可接受的,总要保持较低的VIF值。在使用GBDT训练模型时,发现排名靠前的几个变量,线性相关性达到了97%,这种变量冗余的情况下训练的模型,即便增加了变量,效果没什么提升。因此,我们到底要不要考虑特征间的相关性?还是说只有线性模型需要考虑特征间的相关性,非线性模型就不用考虑了?
以下是相关搜索,待我搞清楚之后填坑:
1.特征筛选方法
https://www.cnblogs.com/hhh5460/p/5186226.html
2.第6条,线性模型中需考虑特征间的相关关系
https://www.cnblogs.com/zhizhan/p/5039148.html
3.线性模型与非线性模型
https://blog.csdn.net/wbcnb/article/details/78306970
4.特征筛选对模型效果有提升
https://blog.csdn.net/cicilover/article/details/77854621
20190926填坑:
尝试着再聊一下这个话题。
首先,这个问题的问法是有问题的,统计学的逻辑回归和机器学习的逻辑回归的目标不同,统计学中默认有一个潜在的规律,调模型时有各种限制来满足假设条件(VIF,线性相关就是这样),来找到那个潜在的规律,而机器学习不同,只关心预测值和真实值的偏差,甚至train和oot上的悬殊差别也能接受,只要oot上AUC越高,就可以。如果明白了这个差别,就不会问出这个问题了。
再详细讲模型类型和处理变量相关性之间的关系。
树模型,生成的时候更多考虑信息增益,所以说它天然带有剔除线性相关的特性,更进一步它也可以规避掉非线性的相关关系。至于为什么会出现我之前遇到的问题(数据不可已不可考查),是和数据大小变量多少有关,指定了树的大小,总是要矮子里面拔将军。下次遇到类似情况我可以验证一下。