python相关性分析特征过滤_特征选择-Filter过滤法后续（相关,互信息法）

最新推荐文章于 2024-03-28 19:35:45 发布

weixin_39915605

最新推荐文章于 2024-03-28 19:35:45 发布

阅读量3.3k

点赞数

文章标签： python相关性分析特征过滤

本文介绍了Python中用于特征选择的相关性过滤方法，包括卡方检验、F检验和互信息法。通过卡方过滤，利用SelectKBest选择与标签相关的特征，但发现设置K值过大导致模型性能下降。接着，讨论了如何通过p值选择合适的K值，并指出在某些数据集中，所有特征都与标签相关。F检验和互信息法也被用于捕捉特征与标签的线性及任意关系，得出类似结论。最后，强调了根据实际需求平衡模型性能与计算效率的重要性。

摘要由CSDN通过智能技术生成

3.1.2 相关性过滤

方差挑选完毕之后，我们就要考虑下一个问题：相关性了。我们希望选出与标签相关且有意义的特征，因为这样的

特征能够为我们提供大量信息。如果特征与标签无关，那只会白白浪费我们的计算内存，可能还会给模型带来噪

音。在sklearn当中，我们有三种常用的方法来评判特征与标签之间的相关性：卡方，F检验，互信息

3.1.2.1 卡方过滤

卡方过滤是专门针对离散型标签(即分类问题)的相关性过滤。卡方检验类feature_selection.chi2计算每个非负

特征和标签之间的卡方统计量，并依照卡方统计量由高到低为特征排名。再结合feature_selection.SelectKBest

这个可以输入”评分标准“来选出前K个分数最高的特征的类，我们可以借此除去最可能独立于标签，与我们分类目

的无关的特征。

另外，如果卡方检验检测到某个特征中所有的值都相同，会提示我们使用方差先进行方差过滤。并且，刚才我们已

经验证过，当我们使用方差过滤筛选掉一半的特征后，模型的表现时提升的。因此在这里，我们使用threshold=中

位数时完成的方差过滤的数据来做卡方检验(如果方差过滤后模型的表现反而降低了，那我们就不会使用方差过滤

后的数据，而是使用原数据)：

from sklearn.ensemble import RandomForestClassifier as RFC

from sklearn.model_selection import cross_val_score

from sklearn.feature_selection im

最低0.47元/天解锁文章

weixin_39915605

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。