3. 特征处理概述

最新推荐文章于 2023-06-17 21:20:43 发布

许久是混子

最新推荐文章于 2023-06-17 21:20:43 发布

阅读量1.4k

点赞数

分类专栏：数据挖掘数据预处理文章标签：数据挖掘机器学习算法

本文链接：https://blog.csdn.net/XuJiuInChina/article/details/121777161

版权

数据挖掘同时被 2 个专栏收录

16 篇文章 1 订阅

订阅专栏

数据预处理

6 篇文章 2 订阅

订阅专栏

特征处理

一、数值离散化

1.1 定义

百度词条把 数值离散化 定义为把无限空间中有限的个体映射到有限的空间中去，以提高算法的时空效率，换句话说，在不改变数据相对大小的情况下，对数据进行相应缩小

离散化仅适用于只关注元素之间的大小关系而不关注元素数值本身的情况。

离散化问题有两种基本方法：一种是在训练集实例类未知的情况下，对每个属性量化，即所谓的 无监督离散化，另一种是在离散化时要考虑类属性，即 有监督离散化，前者只有在处理类未知或类不存在的聚类问题时，才有可能碰到。

1.2 应用

数值离散化在数据预处理中发挥重要作用。离散化可以降低特征中的噪声节点，提高特征的表达能力，但在实际应用中要根据不同环境和不同数据，选择合适的离散化方法。

1.3 必要性

在数据挖掘理论研究中，数值离散化对数据预处理影响重大。离散化数值在提高建模速度和提高模型精度上有显著作用。

对于决策树来说，离散化数据可以加快数据建模的速度，拥有更高的模型精度，离散化数值后，简化了逻辑回归，降低了数据过拟合的风险

数值离散化实际上是一个数据简化机制，因为通过数值离散化过程，一个完整的数据集变成了一个个按照某种规则分类的子集，增强了模型的稳定性。

离散化后的特征对异常数据有很强的鲁棒性，能减少噪音节点对数据的影响。

某些算法智能处理离散化数据，但即使模型可以处理连续型数据，其综合学习效率和模型精度也要稍逊于离散化数据。

Note: 任何离散化的过程都会带来一定的信息丢失，因此寻求最小化信息丢失是使用数值离散化技术人员的核心目标之一。

1.4 离散化步骤

连续变量的离散化分为四个核心步骤：

Sorting: 对连续变量进行排序，为离散化做准备
Evaluating: 对Splitting来说评估分割点（自顶向下），对Merging来说评估合并点（自底向上）
Splitting or Merging: 分割或合并区间
Stopping: 达到停止条件，停止离散化

1.5 无监督离散化

1.5.1 聚类划分

使用聚类算法将数据分为 $k$ 类，需要指定 $k$ 值大小，把同一类数值打上相同标签。

1.5.2 分箱

1.5.2.1 等宽划分

把连续变量按照相同的区间间隔划分几等分，或者说，根据连续变量的最大值和最小值，划分 $N$ 份，每份数值间隔相同。

划分间隔 $\frac{(Max(X) -Min(X))}{N}$

它存在某些风险，由于使用的等级过于粗糙而破坏了在学习阶段中可能有用的区分，或选择将许多不同类的实例不必要的混在一起的分隔边界。它经常造成实例分布非常不均匀：有些箱中包含了许多实例，有的缺一个也没有。这样会严重削弱属性帮助构建较好决策结构的能力。通常，更好的办法是允许有不同大小的区间存在，从而使每个区间内的训练实例数量相等，这种方法被称为 等频分箱。

1.5.2.2 等频划分

把连续变量划分几等份，保证每份的数值个数相同。具体来说，假设共有 $M$ 个数值，划分 $N$ 份，每份包含( $M / N$ )个数值。
划分个数 $c o u n t = M / N$ 。

这种方法有时被称为 直方图均衡化，因为如果观察结果区间内容的直方图，会看到它是完全平直的。如果把区间数目视为一种资源，这种方法最好的利用了该资源。

然而，等频装箱依然忽略了实例的类属性，这将导致不良的分界。例如，如果一个区间中所有实例都属于一个类，理所当然应尊重类特性的分布，将第一个实例划分到前一个区间中，可见牺牲等频特性以保全类的同质性是很有意义的。

1.6 有监督离散化

1.6.1 1R

有监督的分箱方法，把连续区间分成小区间，然后根据类标签对区间内变量调整，每个区间至少包含 $n$ 个变量（最后一个区间除外），无需认为制定箱的个数，避免了无监督等宽和等频方法的缺陷。

从第一个变量开始，将前N个变量纳入第一个区间。N一般取6。

若第七个变量的类别标签与第一个区间内的大多数变量的类别标签相同，则把第七个变量纳入第一个区间，然后按此方法继续判断第八个变量。

若第七个实例的类别标签与第一个区间内的大多数变量的类别标签不相同，则从第七个实例开始纳入六个变量，建立第二区间。

然后对后续变量按照相同的方法判断是否属于第二区间，直至结束。

最终根据每个区间中的大多数变量的共同标签决定这个区间的标签。

通过此流程，对各区间添加标签后，可能会出现相邻区间类别标签相同的情况，此时合并相邻区间。

1.6.2 信息熵

自顶向下的方法，运用决策树的理念进行离散化。

计算数据集中每个变量的熵，选择熵值最小的点作为端点，将数据集一分为二。再利用递归的方式继续对每个小区间的数值一分为二。直到满足停止条件。

停止条件有：每个区间实例小于14个等等。

根据最小描述长度准则 (MDLP) 衡量哪些是符合要求的端点，哪些不是。对不符合要求的端点进行合并。

1.6.3 卡方

自底向上的方法，运用卡方检验的策略，自底向上合并数值并进行有监督离散化，核心操作是 Merge。将数据集里的数值当做单独区间，递归找出可合并的最佳临近区间。判断可合并区间用到卡方统计量来检测两个区间的相关性，对符合所设定阀值的区间进行合并。

二、特征编码

数据挖掘中，一些算法可以直接计算分类变量，比如决策树模型。但许多机器学习算法不能直接处理分类变量，它们的输入和输出都是数值型数据。因此，把分类变量转换成数值型数据是必要的，可以用独热编码 (One-Hot Encoding) 和**哑编码 (Dummy Encoding)**实现。

比较常用的是对逻辑回归中的连续变量做离散化处理，然后对离散特征进行独热编码 (One-Hot Encoding) 或哑编码 (Dummy Encoding)，这样会使模型具有较强的非线性能力。

2.1 独热编码

2.1.1 定义

使用 $M$ 位状态寄存器对 $M$ 个状态进行编码，每个状态都有独立的寄存器位，这些特征互斥，所以在任意时候只有一位有效。也就是说，这 $M$ 种状态中只有一个状态位值为1，其他状态位都是0。换句话说， $M$ 个变量用 $M$ 维表示，每个维度的数值或为1，或为0。

2.1.2 示例

	学历
1	小学
2	中学
3	大学

学历这个特征中有三个变量：小学、中学、大学，根据独热编码的定义对其进行编码，结果如下：

	小学	中学	大学
1	1	0	0
2	0	1	0
3	0	0	1

2.2 哑编码

2.2.1 定义

哑编码和独热编码很相似，唯一的区别在于哑编码使用 $M - 1$ 位状态寄存器对 $M$ 个状态进行编码。

2.2.2 示例

同样以上面的特征为例，编码后的特征为：

	小学	大学
1	1	0
2	0	0
3	0	1

2.3 分类特征编码(Label-Encoding)

2.3.1 定义

有序分类变量数值之间存在一定的顺序关系，可直接使用划分后的数值进行数据建模。

2.3.2 示例

小学、中学、大学有明显的递进关系，因此编码后的特征为：

	学历
1	0
2	1
3	2

2.4 特点

算法	优点	缺点
独热编码、哑编码	解决了分类器不好处理分类变量的问题。	分类的变量不易过多，可能会造成稀疏矩阵。
Label-Encoding	解决了分类变量的编码问题。	可解释性差

对于不能处理分类变量的模型，必须要使用独热编码或哑编码，将变量转换成数值型。但若模型可处理分类变量，可无须转换数据，如树模型。