机器学习小组知识点27：数据预处理之数据离散化（Data Discretization）

最新推荐文章于 2021-03-17 20:50:57 发布

Eric2016_Lv

最新推荐文章于 2021-03-17 20:50:57 发布

阅读量5.9k

点赞数

分类专栏：机器学习数据挖掘文章标签：机器学习数据数据挖掘

本文链接：https://blog.csdn.net/Eric2016_Lv/article/details/53670279

版权

本文详细介绍了数据预处理中的离散化技术，包括分箱、直方图分析、聚类分析、基于熵的离散化以及自然划分分段。离散化能减少连续属性值的数量，有助于提高数据处理效率。通过概念分层，数据变得更加有意义和易于解释。各种离散化方法各有特点，例如，基于熵的离散化通过最大化信息增益来选择最佳阈值，而自然划分分段则根据数据分布创建相对均匀的区间。

摘要由CSDN通过智能技术生成

离散化和概念分层产生

通过将属性域划分为区间，离散化技术可以用来减少给定连续属性值的个数。区间的标号可以替代实际的数据值。如果使用基于判定树的分类挖掘方法，减少属性值的数量特别有好处。通常，这种方法是递归的，大量的时间花在每一步的数据排序上。因此，待排序的不同值越少，这种方法就应当越快。许多离散化技术都可以使用，以便提供属性值的分层或多维划分——概念分层

对于给定的数值属性，概念分层定义了该属性的一个离散化。通过收集并用较高层的概念（对
于年龄属性，如young, middle-age 和senior）替换较低层的概念（如，年龄的数值值），概念分层可以用来归约数据。通过这种泛化，尽管细节丢失了，但泛化后的数据更有意义、更容易解释，并且所需的空间比原数据少。在归约的数据上进行挖掘，与在大的、未泛化的数据上挖掘相比，所需的I/O 操作更少，并且更有效

对于用户或领域专家，人工地定义概念分层可能是一项令人乏味、耗时的任务。幸而，许多分层蕴涵在数据库模式中，并且可以在模式定义级定义。概念分层常常自动地产生，或根据数据分布的统计分析动态地加以提炼。

数值属性的概念分层可以根据数据分布分析自动地构造。五种数值概念分层产生方法：分
箱、直方图分析、聚类分析、基于熵的离散化和通过“自然划分”的数据分段。

分箱

分箱方法。这些方法也是离散化形式。例如，通过将数据分布到箱中，并用箱中的平均值或中值替换箱中的每个值，可以将属性值离散化。就象用箱的平均值或箱的中值平滑一样。这些技术可以递归地作用于结果划分，产生概念分层。

直方图分析

直方图分析算法递归地用于每一部分，自动地产生多级概念分层，直到到达一个预先设定的概念层数，过程终止。也可以对每一层使用最小区间长度来控制递归过程。最小区间长度设定每层每部分的最小宽度，或每层每部分中值的最少数目。

聚类分析

聚类算法可以用来将数据划分成聚类或群。每一个聚类形成概念分层的一个结点，而所有的结点在同一概念层。每一个聚类可以进一步分成若干子聚类，形成较低的概念层。聚类也可以聚集在一起，以形成分层结构中较高的概念层

基于熵的离散化

一种基于信息的度量称作熵，可以用来递归地划分数值属性 $A$ 的值，产生分层的离散化。这种离散化形成属性的数值概念分层。给定一个数据元组的集合 $S$ ，基于熵对 $A$ 离散化的方法如下：
$A$ 的每个值可以认为是一个潜在的区间边界或阈值T。例如， $A$ 的值 $v$ 可以将样本 S

最低0.47元/天解锁文章

Eric2016_Lv

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
机器学习小组知识点27：数据预处理之数据离散化（Data Discretization）

离散化和概念分层产生通过将属性域划分为区间，离散化技术可以用来减少给定连续属性值的个数。区间的标号可以替代实际的数据值。如果使用基于判定树的分类挖掘方法，减少属性值的数量特别有好处。通常，这种方法是递归的，大量的时间花在每一步的数据排序上。因此，待排序的不同值越少，这种方法就应当越快。许多离散化技术都可以使用，以便提供属性值的分层或多维划分——概念分层对于给定的数值属性，概念分层定义了该属性的一个离
复制链接

扫一扫

专栏目录