特征工程系列（一）：特征工程的概念/特征的处理

最新推荐文章于 2022-11-19 12:01:15 发布

Myordry

最新推荐文章于 2022-11-19 12:01:15 发布

阅读量1.1k

点赞数

分类专栏：特征工程机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/Myordry/article/details/105347182

版权

特征工程在机器学习中至关重要，它包括特征处理如无量纲化、归一化、离散化等。无量纲化通过标准化和归一化消除数据规格差异，常用于提升模型收敛速度和计算样本间距离。归一化输出范围在0-1之间，而标准化输出范围更广，适用于异常值和噪音较多的数据。离散化将连续数据分段，便于理解，增强模型稳定性和抗噪声能力，常用方法有等宽法、等频法、二值化和基于聚类的方法。特征工程是提高模型性能的关键步骤。

摘要由CSDN通过智能技术生成

1 特征工程的概念

所谓数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。那么特征工程到底是什么呢？其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。

2 特征处理

　　通过特征提取，我们能得到未经处理的特征，这时的特征可能有以下问题：

（1）量纲不同：即特征的规格不一样，不能够放在一起比较。

（2）信息冗余：对于某些定量特征，其包含的有效信息为区间划分，例如学习成绩，假若只关心“及格”或不“及格”，那么需要将定量的考分，转换成“1”和“0”表示及格和未及格。二值化可以解决这一问题。

（3）定性特征不能直接使用：某些机器学习算法和模型只能接受定量特征的输入，那么需要将定性特征转换为定量特征。最简单的方式是为每一种定性值指定一个定量值，但是这种方式过于灵活，增加了调参的工作。通常使用OneHot的方式将定性特征转换为定量特征。OneHot的方式相比直接指定的方式，不用增加调参的工作，对于线性模型来说，使用哑编码后的特征可达到非线性的效果。

（4）存在缺失值：缺失值需要补充。

（5）信息利用率低：不同的机器学习算法和模型对数据中信息的利用是不同的，之前提到在线性模型中，使用对定性特征OneHot可以达到非线性的效果。类似地，对定量变量多项式化，或者进行其他的转换，都能达到非线性的效果。

2.1 无量纲化

无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化、归一化等。标准化的前提是特征值服从正态分布，标准化后，其转换成标准正态分布。区间缩放法利用了边界值信息，将特征的取值区间缩放到某个特点的范围，例如[0, 1]等。

2.1.1 标准化

在机器学习中，我们可能要处理不同种类的资料，例如，音讯和图片上的像素值，这些资料可能是高维度的，资料标准化后会使每个特征中的数值平均变为0(将每个特征的值都减掉原始资料中该特征的平均)、标准差变为1，这个方法被广泛的使用在许多机器学习算法中(例如：支持向量机、逻辑回归和类神经网络)。

标准化需要计算特征的均值和标准差，公式表达为：

均值：X

标准差：总体标准差和样本标准差

numpy.std() 求标准差的时候默认是除以 n 的，即是有偏的，np.std无偏样本标准差方式为加入参数 ddof = 1；

pandas.std() 默认是除以n-1 的，即是无偏的，如果想和numpy.std() 一样有偏，需要加上参数ddof=0 ，即pandas.std(ddof=0) ；DataFrame的describe()中就包含有std()；

2.1.2 归一化

区间缩放法的思路有多种，常见的一种为利用两个最值进行缩放，公式表达为：

最低0.47元/天解锁文章

Myordry

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
特征工程系列（一）：特征工程的概念/特征的处理

1 特征工程的概念所谓数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。那么特征工程到底是什么呢？其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。2 特征处理　　通过特征提取，我们能得到未经处理的特征，这时的特征可能有以下问题：（1）量纲不同：即特征的规格不一样，不能够放在一起比较。（2）信息冗余：对于某些定量特征，其包...
复制链接

扫一扫

专栏目录