特征选择方法总结

本文详细介绍了特征选择的重要性、原则、需要考虑的问题以及多种方法,包括筛选器、封装器和随机法。重点讨论了单变量特征选择、正则化模型(L1与L2正则化)、随机森林的选择策略,以及稳定性选择和递归特征消除等方法。特征选择的目标是找到最小、最能描述类别的特征子集,同时保持高分类精度和稳定性。
摘要由CSDN通过智能技术生成

1、为什么要做特征选择

在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。

2、特征选择的确切含义

将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。

3、特征选取的原则

获取尽可能小的特征子集,不显著降低分类精度、不影响类分布以及特征子集应具有稳定适应性强等特点

4、特征选择需要考虑的问题

a、确定选择算法,在允许的时间内以最小的代价找出最小的、最能描述类别的特征组合

b、确定评价标准,衡量特征组合是否是最优,得到特征获取操作的停止条件。

5、特征获取方法

a、按照特征子集的形成方式可以分为三种,穷举法(exhaustion)、启发法(heuristic)和随机法(random)。穷举法需要遍历特征空间中所有的特征组合,所以方法复杂度最大,实用性不强;启发法通过采用期望的人工机器调度规则,重复迭代产生递增的特征子集,复杂度略低于穷举法,但是只能获取近似最优解;随即方法分为完全随机方法和概率随机方法两种,对参数设置的依赖性较强。

b、按照特征评价标准来分,根据评价函数与分类器的关心,可以分为筛选器和封装器两种,筛选器的评价函数与分类器无关,封装器采用分类器的错误概率作为评价函数。筛选器的评价函数可以细分为距离测度、信息测度、相关性测度和一致性测度。距离测度用距离来衡量样本之间的相似度,信息测度利用最小不确定性特征来分类。

6、特征选择方法总结

去掉取值变化小的特征 Removing features with low variance

该方法一般用在特征选择前作为一个预处理的工作,即先去掉取值变化小的特征,然后再使用其他的特征选择方法选择特征。

2 单变量特征选择 Univariate feature selection

单变量特征选择能够对每一个特征进行测试,衡量该特征和响应变量之间的关系,根据得分扔掉不好的特征。对于回归和分类问题可以采用卡方检验等方式对特征进行测试。

2.1 Pearson相关系数 Pearson Correlation

皮尔森相关系数是一种最简单的,能帮助理解特征和响应变量之间关系的方法,该方法衡量的是变量之间的线性相关性,结果的取值区间为[-11]-1表示完全的负相关(这个变量下降,那个就会上升)+1表示完全的正相关,0表示没有线性相关。

2.2 互信息和最大信息系数 Mutual information and maximal information coefficient (MIC)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值