特征工程 Feature Engineering（一）

最新推荐文章于 2024-06-24 17:17:23 发布

小麦粒

最新推荐文章于 2024-06-24 17:17:23 发布

阅读量7.9k

点赞数 6

分类专栏：数据集

本文链接：https://blog.csdn.net/u010986753/article/details/100159767

版权

特征工程是机器学习中至关重要的步骤，包括数据处理、特征选择和维度压缩。通过无量纲化、二值化、虚拟变量编码等数据处理手段，确保特征的一致性和模型的适用性。特征选择涉及方差选择、相关性分析等多种方法，以选择对目标变量最具影响力的部分。维度压缩如PCA和LDA用于减少计算复杂度，同时保持数据的重要信息。良好的特征工程能显著提高模型的预测性能。

摘要由CSDN通过智能技术生成

数据和模型 https://blog.csdn.net/u010986753/article/details/98526886

一、特征工程（Feature Engineering）介绍

1.1 特征工程的重要性

特征工程其本质上是一项工程活动，它的目的是最大限度地从原始数据中提取特征以供算法和模型使用。

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。特征工程的最终目的就是提升模型的性能。

特征工程的重要性：

特征越好，灵活性越强
特征越好，模型越简单
特征越好，性能越出色

1.2 特征工程包括哪些方面呢？

特征工程包括：数据处理、特征选择、维度压缩三大方面的内容。

1.3 为什么要做特征工程？

数据特征会直接影响我们模型的预测性能。选择的特征越好，最终得到的性能也就越好。
通常实验结果取决于选择的模型、获取的数据以及使用的特征

1.4 特征工程是什么？

当你想要你的预测模型性能达到最佳时，你要做的不仅是要选取最好的算法，还要尽可能的从原始数据中获取更多的信息。那么问题来了，你应该如何为你的预测模型得到更好的数据呢？

想必到了这里你也应该猜到了，是的，这就是特征工程要做的事，它的目的就是获取更好的训练数据。特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。

简而言之，特征工程就是一个把原始数据转变成特征的过程，这些特征可以很好的描述这些数据，并且利用它们建立的模型在未知数据上的表现性能可以达到最优（或者接近最佳性能）。从数学的角度来看，特征工程就是人工地去设计输入变量X。

特征工程更是一门艺术，跟编程一样。导致许多机器学习项目成功和失败的主要因素就是使用了不同的特征。说了这么多，想必你也大概知道了为什么要做特征工程，下面来说说特征工程的重要性。

二、数据处理

2.1 无量纲化

量纲就是单位，特征的单位不一致就不能放在一起比较，可以使用数据标准化的方法来达到量纲一致的要求。不属于同一量纲：即特征的规格不一样，不能够放在一起比较。无量纲化可以解决这一问题。

常用的数据标准化方法：

区间缩放法即0-1标准化是对原始数据进行线性变化，将特征值映射成区间为[0，1]的标准值中。常见的一种为利用两个最值进行缩放

from sklearn.preprocessing import MinMaxScaler

#区间缩放，返回值为缩放到[0, 1]区间的数据
MinMaxScaler().fit_transform(iris.data)

Z标准化是基于特征值的均值和标准差进行数据的标准化，标准化后的变量围绕0上下波动，大于0说明高于平均水平，小于0说明低于平均水平。标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，将样本的特征值转换到同一量纲下。

from sklearn.preprocessing import StandardScaler
 
#标准化，返回值为标准化后的数据
StandardScaler().fit_transform(iris.data)

归一化，是依照特征矩阵的行处理数据，其目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为“单位向量”。规则为l2的归一化公式如下：

from sklearn.preprocessing import Normalizer

#归一化，返回值为归一化后的数据
Normalizer().fit_transform(iris.data)

2.2 二值化

信息冗余：对于某些定量特征，其包含的有效信息为区间划分，例如学习成绩，假若只关心“及格”或不“及格”，那么需要将定量的考分，转换成“1”和“0”表示及格和未及格。二值化可以解决这一问题。
定量特征二值化的核心在于设定一个阈值，大于阈值的赋值为1，小于等于阈值的赋值为0，公式表达如下：

#使用preproccessing库的Binarizer类对数据进行二值化的代码如下：

from sklearn.preprocessing import Binarizer

#二值化，阈值设置为3，返回值为二值化后的数据
Binarizer(threshold=3).fit_transform(iris.data)

2.3 虚拟变量one-hot encoding 和 get_dummies

虚拟变量也叫哑变量或离散特征编码，可用来表示分类变量、非数量因素可能产生的影响。
定性特征不能直接使用：某些机器学习算法和模型只能接受定量特征的输入，那么需要将定性特征转换为定量特征。最简单的方式是为每一种定性值指定一个定量值，但是这种方式过于灵活，增加了调参的工作。通常使用哑编码的方式将定性特征转换为定量特征：假设有N种定性值，则将这一个特征扩展为N种特征，当原始特征值为第i种定性值时，第i个扩展特征赋值为1，其他扩展特征赋值为0。哑编码的方式相比直接指定的方式，不用增加调参的工作，对于线性模型来说，使用哑编码后的特征可达到非线性的效果。

由于IRIS数据集的特征皆为定量特征，故使用其目标值进行哑编码（实际上是不需要的）。使用preproccessing库的OneHotEncoder类对数据进行哑编码的代码如下：

python中主要通过pandas包中的get_dummies方法进行特征变量的虚拟化，即pandas提供对one-hot编码的函数是：pd.get_dummies()。

from sklearn.preprocessing import OneHotEncoder

#哑编码，对IRIS数据集的目标值，返回值为哑编码后的数据
OneHotEncoder().fit_transform(iris.target.reshape((-1,1)))

one-hot的基本思想：将离散型特征的每一种取值都看成一种状态，若你的这一特征中有N个不相同的取值，那么我们就可以将该特征抽象成N种不同的状态，one-hot编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其他状态位都是0。举个例子，假设我们以学历为例，我们想要研究的类别为小学、中学、大学、硕士、博士五种类别，我们使用one-hot对其编码就会得到：

哑变量编码（dummy encoding）直观的解释就是任意的将一个状态位去除。如上图，我们用4个状态位就足够反应上述5个类别的信息，也就是我们仅仅使用前四个状态位 [0,0,0,0] 就可以表达博士了。只是因为对于一个我们研究的样本，他已不是小学生、也不是中学生、也不是大学生、又不是研究生，那么我们就可以默认他是博士，是不是。所以，我们用哑变量编码可以将上述5类表示成：

在这里插入代码片

2.4 缺失值填充

缺失值产生的原因：有些信息暂时无法获取（单身人士的配偶、未成年人的收入等）；有些信息被遗漏或错误的处理了

缺失值处理方法：数据补齐；删除缺失值；不处理

由于IRIS数据集没有缺失值，故对数据集新增一个样本，4个特征均赋值为NaN，表示数据缺失。使用preproccessing库的Imputer类对数据进行缺失值计算的代码如下：

from numpy import vstack, array, nan
from sklearn.preprocessing import Imputer

#缺失值计算，返回值为计算缺失值后的数据
#参数missing_value为缺失值的表示形式，默认为NaN
#参数strategy为缺失值填充方式，默认为mean（均值）
Imputer()