特征选择方法总结

最新推荐文章于 2023-08-08 23:48:56 发布

海涛anywn

最新推荐文章于 2023-08-08 23:48:56 发布

阅读量1.3w

点赞数 4

分类专栏：机器学习文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lihaitao000/article/details/51213563

版权

本文详细介绍了特征选择的重要性、原则、需要考虑的问题以及多种方法，包括筛选器、封装器和随机法。重点讨论了单变量特征选择、正则化模型（L1与L2正则化）、随机森林的选择策略，以及稳定性选择和递归特征消除等方法。特征选择的目标是找到最小、最能描述类别的特征子集，同时保持高分类精度和稳定性。

摘要由CSDN通过智能技术生成

1、为什么要做特征选择

在有限的样本数目下，用大量的特征来设计分类器计算开销太大而且分类性能差。

2、特征选择的确切含义

将高维空间的样本通过映射或者是变换的方式转换到低维空间，达到降维的目的，然后通过特征选取删选掉冗余和不相关的特征来进一步降维。

3、特征选取的原则

获取尽可能小的特征子集，不显著降低分类精度、不影响类分布以及特征子集应具有稳定适应性强等特点

4、特征选择需要考虑的问题

a、确定选择算法，在允许的时间内以最小的代价找出最小的、最能描述类别的特征组合

b、确定评价标准，衡量特征组合是否是最优，得到特征获取操作的停止条件。

5、特征获取方法

a、按照特征子集的形成方式可以分为三种，穷举法（exhaustion）、启发法（heuristic）和随机法（random）。穷举法需要遍历特征空间中所有的特征组合，所以方法复杂度最大，实用性不强；启发法通过采用期望的人工机器调度规则，重复迭代产生递增的特征子集，复杂度略低于穷举法，但是只能获取近似最优解；随即方法分为完全随机方法和概率随机方法两种，对参数设置的依赖性较强。

b、按照特征评价标准来分，根据评价函数与分类器的关心，可以分为筛选器和封装器两种，筛选器的评价函数与分类器无关，封装器采用分类器的错误概率作为评价函数。筛选器的评价函数可以细分为距离测度、信息测度、相关性测度和一致性测度。距离测度用距离来衡量样本之间的相似度，信息测度利用最小不确定性特征来分类。

6、特征选择方法总结

1 去掉取值变化小的特征 Removing features with low variance

该方法一般用在特征选择前作为一个预处理的工作，即先去掉取值变化小的特征，然后再使用其他的特征选择方法选择特征。

2 单变量特征选择 Univariate feature selection

单变量特征选择能够对每一个特征进行测试，衡量该特征和响应变量之间的关系，根据得分扔掉不好的特征。对于回归和分类问题可以采用卡方检验等方式对特征进行测试。

2.1 Pearson相关系数 Pearson Correlation

皮尔森相关系数是一种最简单的，能帮助理解特征和响应变量之间关系的方法，该方法衡量的是变量之间的线性相关性，结果的取值区间为[-1，1]，-1表示完全的负相关(这个变量下降，那个就会上升)，+1表示完全的正相关，0表示没有线性相关。

2.2 互信息和最大信息系数 Mutual information and maximal information coefficient (MIC)

最低0.47元/天解锁文章

关注

4
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。