特征选择方法

特征选择是机器学习中的重要步骤,旨在去除无关和冗余特征,提高模型性能。本文介绍了三种方法:Filter通过评分选择特征,如方差、互信息等;Wrapper利用目标函数迭代选择最佳子集,如RFE;Embedding则是在模型训练过程中确定特征重要性,如决策树和深度学习。
摘要由CSDN通过智能技术生成

特征选择方法

为什么进行特征选择

1、去除不相关或冗余特征

2、减少过拟合,提高泛化能力,缓解维度灾难

3、提高模型准确率,加快模型训练速度

相关特征:对于学习任务(例如分类问题)有帮助,可以提升学习算法的效果;

无关特征:对于我们的算法没有任何帮助,不会给算法的效果带来任何提升;

冗余特征:不会对我们的算法带来新的信息,或者这种特征的信息可以由其他的特征推断出

特征选择方法
一、Filter

描述:按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征

具体方法:

  • 方差

  • f_classif f_regression

  • 相关系数:皮尔逊相关系数等

  • 距离相关系数:克服Pearson相关系数的弱点

在x 和x ^2这个例子中,即便Pearson相关系数是0,我们也不能断定这两个变量是独立的(有可能是非线性相关);但如果距离相关系数是0,那么我们就可以说这两个变量是独立的。

  • 卡方检验 Chi2
  • 信息增益
  • 互信息 mutual_info_classif mutual_info_regression
  • 最大信息系数

互信息直接用于特征选择其实不是太方便:

1、它不属于度量方式,也没有办法归一化,在不同数据及上的结果无法做比较;

2、对于连续变量的计算不是很方便(X和Y都是集合,x,y都是离散的取值),通常变量需要先离散化,而互信息的结果对离散化的方式很敏感。

最大信息系数MIC克服了这两个问题。它首先寻找一种最优的离散化方式,然后把互信息取值转换成一种度量方式,取值区间在[ 0 , 1 ]

//使用方差进行选择
from sklearn.feature_selection 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值