特征选择（含代码）

最新推荐文章于 2024-05-31 07:30:00 发布

安于此生_

最新推荐文章于 2024-05-31 07:30:00 发布

阅读量6.5k

点赞数 2

分类专栏： python数据分析

python数据分析专栏收录该内容

22 篇文章 0 订阅

订阅专栏

当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：

特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。
特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。除移除低方差法外，本文介绍的其他方法均从相关性考虑。

根据特征选择的形式又可以将特征选择方法分为3种：

Filter：过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。
Wrapper：包装法，根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。
Embedded：嵌入法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。

特征选择主要有两个目的：【待更新】

减少特征数量、降维，使模型泛化能力更强，减少过拟合；
增强对特征和特征值之间的理解。

拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。通常情况下，选择一种自己最熟悉或者最方便的特征选择方法（往往目的是降维，而忽略了对特征和数据理解的目的）。本文将结合 Scikit-learn提供的例子介绍几种常用的特征选择方法，它们各自的优缺点和问题。

Filter

1. 移除低方差的特征 (Removing features with low variance)

>>> from sklearn.feature_selection import VarianceThreshold
>>> X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]
>>> sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
>>> sel.fit_transform(X)
array([[0, 1],
       [1, 0],
       [0, 0],
       [1, 1],
       [1, 0],
       [1, 1]])

2. 单变量特征选择 (Univariate feature selection)
单变量特征选择的原理是分别单独的计算每个变量的某个统计指标，根据该指标来判断哪些指标重要，剔除那些不重要的指标。

对于分类问题(y离散)，可采用：
　　　　卡方检验，f_classif, mutual_info_classif，互信息
对于回归问题(y连续)，可采用：
　　　　皮尔森相关系数，f_regression, mutual_info_regression，最大信息系数

Wrapper

3. 递归特征消除 (Recursive Feature Elimination)
　　递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，移除若干权值系数的特征，再基于新的特征集进行下一轮训练。
　　
　

Embedded

4. 使用SelectFromModel选择特征 (Feature selection using SelectFromModel)

参考：
特征选择 (feature_selection)
Feature selection using SelectFromModel
特征选择综述-知乎

安于此生_

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
2
评论
特征选择（含代码）

当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。除移除低方差法外，本文介绍的其他方法均从相关性考虑。根据特征选择的形式又可...
复制链接

扫一扫