特征选择方法

最新推荐文章于 2024-06-21 11:17:49 发布

lucky_xy1997

最新推荐文章于 2024-06-21 11:17:49 发布

阅读量413

点赞数

分类专栏： Python数据分析与数据挖掘文章标签：机器学习决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_47271929/article/details/113923899

版权

特征选择是机器学习中的重要步骤，旨在去除无关和冗余特征，提高模型性能。本文介绍了三种方法：Filter通过评分选择特征，如方差、互信息等；Wrapper利用目标函数迭代选择最佳子集，如RFE；Embedding则是在模型训练过程中确定特征重要性，如决策树和深度学习。

摘要由CSDN通过智能技术生成

特征选择方法

为什么进行特征选择

1、去除不相关或冗余特征

2、减少过拟合，提高泛化能力，缓解维度灾难

3、提高模型准确率，加快模型训练速度

相关特征：对于学习任务（例如分类问题）有帮助，可以提升学习算法的效果；

无关特征：对于我们的算法没有任何帮助，不会给算法的效果带来任何提升；

冗余特征：不会对我们的算法带来新的信息，或者这种特征的信息可以由其他的特征推断出

特征选择方法

一、Filter

描述：按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征

具体方法：

方差
f_classif f_regression
相关系数：皮尔逊相关系数等
距离相关系数：克服Pearson相关系数的弱点

在x 和x ^2这个例子中，即便Pearson相关系数是0，我们也不能断定这两个变量是独立的（有可能是非线性相关）；但如果距离相关系数是0，那么我们就可以说这两个变量是独立的。

卡方检验 Chi2
信息增益
互信息 mutual_info_classif mutual_info_regression
最大信息系数

互信息直接用于特征选择其实不是太方便：

1、它不属于度量方式，也没有办法归一化，在不同数据及上的结果无法做比较；

2、对于连续变量的计算不是很方便（X和Y都是集合，x，y都是离散的取值），通常变量需要先离散化，而互信息的结果对离散化的方式很敏感。

最大信息系数MIC克服了这两个问题。它首先寻找一种最优的离散化方式，然后把互信息取值转换成一种度量方式，取值区间在[ 0 ， 1 ]

//使用方差进行选择
from sklearn.feature_selection

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。