文章链接:https://blog.csdn.net/Bryan__/article/details/51607215
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。
特征选择主要有两个功能:
- 减少特征数量、降维,使模型泛化能力更强,减少过拟合
- 增强对特征和特征值之间的理解
拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者最方便的特征选择方法(往往目的是降维,而忽略了对特征和数据理解的目的)。
在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一种副作用,一般不会单独拿出来讨论。
本文将结合Scikit-learn提供的例子介绍几种常用的特征选择方法,它们各自的优缺点和问题
1 去掉取值变化小的特征 Removing features with low variance
2 单变量特征选择 Univariate feature selection
2.1 Pearson相关系数 Pearson Correlation
2.2 互信息和最大信息系数 Mutual information and maximal information coefficient (MIC)
2.3 距离相关系数 (Distance correlation)
2.4 基于学习模型的特征排序 (Model based ranking)
3 线性模型和正则化
3.1 正则化模型
3.2 L1正则化/Lasso
3.3 L2正则化/Ridge regression
4 随机森林
随机森林提供了两种特征选择的方法:mean decrease impurity和mean decrease accuracy。