数据挖掘学习（一）：特征工程

最新推荐文章于 2024-02-03 13:43:11 发布

VIP文章陈小虾

最新推荐文章于 2024-02-03 13:43:11 发布

阅读量779

点赞数 2

分类专栏：数据挖掘与数据竞赛机器学习文章标签：特征工程数据挖掘

本文链接：https://blog.csdn.net/ch18328071580/article/details/98317323

版权

文章目录

概述
一、特征选择
二、特征表达
三、特征预处理

概述

特征工程是数据分析中最耗时间和精力的一部分工作，它不像算法和模型那样是确定的步骤，更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。

特征工程，是指用一系列工程化的方式从原始数据中筛选出更好的数据特征，以提升模型的训练效果。业内有一句广为流传的话是：数据和特征决定了机器学习的上限，而模型和算法是在逼近这个上限而已。由此可见，好的数据和特征是模型和算法发挥更大的作用的前提。特征工程通常包括数据预处理、特征选择、降维等环节。如下图所示：
在这里插入图片描述

一、特征选择

在做数据分析的时候，特征的来源一般有两块，一块是业务已经整理好各种特征数据，我们需要去找出适合我们问题需要的特征；另一块是我们从业务特征中自己去寻找高级数据特征。

1、选择合适的特征

特征选择方法有很多，一般分为三类：

第一类：过滤法，它按照特征的发散性或者相关性指标对各个特征进行评分，设定评分阈值或者待选择阈值的个数，选择合适特征。

第二类：包装法，根据目标函数，通常是预测效果评分，每次选择部分特征，或者排除部分特征。

第三类：嵌入法，它先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据权值系数从大到小来选择特征。类似于过滤法，但是它是通过机器学习训练来确定特征的优劣，而不是直接从特征的一些统计学指标来确定特征的优劣。

1.1 过滤法选择特征

1）方差筛选：方差越大的特征，那么我们可以认为它是比较有用的。如果方差较小，比如小于1，那么这个特征可能对我们的算法作用没有那么大。最极端的，如果某个特征方差为0，即所有的样本该特征的取值都是一样的，那么它对我们的模型训练没有任何作用，可以直接舍弃。在实际应用中，我们会指定一个方差的阈值，当方差小于这个阈值的特征会被我们筛掉。sklearn中的VarianceThreshold类可以很方便的完成这个工作。

2）相关系数：这个主要用于输出连续值的监督学习算法中。我们分别计算所有训练集中各个特征与输出值之间的相关系数，设定一个阈值，选择相关系数较大的部分特征。

3）假设检验：比如卡方检验。卡方检验可以检验某个特征分布和输出值分布之间的相关性。个人觉得它比比粗暴的方差法好用。如果大家对卡方检验不熟悉，可以参看这篇卡方检验原理及应用，这里就不展开了。在sklearn中，可以使用chi2这个类来做卡方检验得到所有特征的卡方值与显著性水平P临界值，我们可以给定卡方值阈值，选择卡方值较大的部分特征。

4）F检验和t检验：它们都是使用假设检验的方法，只是使用的统计分布不是卡方分布，而是F分布和t分布而已。在sklearn中，有F检验的函数f_classif和f_regression，分别在分类和回归特征选择时使用。

5）互信息：即从信息熵的角度分析各个特征和输出值之间的关系评分。在决策树算法中我们讲到过互信息（信息增益）。互信息值越大，说明该特征和输出值之间的相关性越大，越需要保留。在sklearn

最低0.47元/天解锁文章

陈小虾

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘学习（一）：特征工程

文章目录概述一、特征选择1、选择合适的特征1.1 过滤法选择特征1.2 包装法选择特征1.3 嵌入法选择特征2、寻找高级特征二、特征表达2.1 缺失值处理2.2 特殊的特征处理2.3 离散特征的连续化处理2.4 离散特征的离散化处理2.5 连续特征的离散化处理三、特征预处理3.1 特征的标准化和归一化3.2 异常特征样本清洗3.3. 处理不平衡数据概述特征...
复制链接

扫一扫