数据建模：机器学习之如何进行特征工程（上）

最新推荐文章于 2024-06-03 17:03:10 发布

糖甜甜甜74

最新推荐文章于 2024-06-03 17:03:10 发布

阅读量1.0k

点赞数

文章标签：算法 python 机器学习人工智能深度学习

本文链接：https://blog.csdn.net/Pylady/article/details/108114660

版权

在数据预处理之前，先来了解下特征工程，特征工程指的是在原始数据之中提取，构造，选择数据特征的过程。有句话是：“数据和特征工程决定了你能到达的上限，机器学习模型决定了你能多么逼近这个上限”。特征工程是数据分析过程中最重要的一步，当然也很能简单的理解，毕竟特征工程是建模步骤的基础和准备。content1 特征选择　　 1.1 Filter　　　　 1.1.1 方差选择法　　　　 1.1.2 相关系数法　　　　 1.1.3 卡方检验　　　　 1.1.4 互信息法　　 1.2 Wrapper　　　　 1.2.1 递归特征消除法　　 1.3 Embedded　　　　 1.3.1 基于惩罚项的特征选择法　　　　 1.3.2 基于树模型的特征选择法

1 特征选择

当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：

特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。

特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。除方差法外，本文介绍的其他方法均从相关性考虑。

根据特征选择的形式又可以将特征选择方法分为3种：

Filter：过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。

Wrapper：包装法，根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。

Embedded：嵌入法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。

我们使用sklearn中的feature_selection库来进行特征选择。

1.1 Filter

1.1.1 方差选择法

使用方差选择法，先要计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征。使用feature_selection库的VarianceThreshold类来选择特征的代码如下：

from sklearn.feature_selection import VarianceThreshold
#方差选择法，返回值为特征选择后的数据
#参数threshold为方差的阈值
Vari

最低0.47元/天解锁文章

糖甜甜甜74

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
数据建模：机器学习之如何进行特征工程（上）

在数据预处理之前，先来了解下特征工程，特征工程指的是在原始数据之中提取，构造，选择数据特征的过程。有句话是：“数据和特征工程决定了你能到达的上限，机器学习模型决定了你能多么逼近这个上限”...
复制链接

扫一扫