连续属性离散化

最新推荐文章于 2023-11-12 15:46:54 发布

Eaton18

最新推荐文章于 2023-11-12 15:46:54 发布

阅读量1.2w

点赞数 6

分类专栏：机器学习数据处理文章标签：机器学习数据处理

本文链接：https://blog.csdn.net/Eaton18/article/details/52143616

版权

1. 离散化技术分类

连续属性的离散化方法也可以被称为分箱法，即将一组连续的值根据一定的规则分别放到其术语的集合中。
离散化技术可以根据如何对数据进行离散化加以分类，可以根据是否使用类信息或根据进行方向(即自顶向下或自底向上)分类。
如果离散化过程使用类信息，则称它为监督离散化(superviseddiscretization)；否则是非监督的(unsupervised)。
如果首先找出一点或几个点(称作分裂点或割点)来划分整个属性区间，然后在结果区间上递归地重复这一过程，则称它为自顶向下离散化或分裂。自底向上离散化或合并正好相反，首先将所有的连续值看作可能的分裂点，通过合并相邻域的值形成区间，然后递归地应用这一过程于结果区间。

2.无监督离散化与监督离散化

根据数据是否包含类别信息可以把它们分成有监督的数据和无监督的数据。有监督的离散化要考虑类别信息而无监督的离散化则不需要。

2.1 无监督离散化

假设属性的取值空间为 $X = \{X_1,X_2,\cdots,X_n\}$ ，离散化之后的类标号是 $Y = \{Y_1,Y_2,\cdots,Y_m\}$ ，则无监督离散化的情况就是 $X$ 已知而 $Y$ 未知。以下介绍几种常用的无监督离散化方法：
(1) 等宽算法
根据用户指定的区间数目 $K$ ，将属性的值域 $[X_{min}-X_{max}]$ 划分成 $K$ 个区间，并使每个区间的宽度相等，即都等于 $\frac{X_{max}-X_{min}}{K}$ 。缺点是容易受离群点的影响而使性能不佳。
(2) 等频算法
等频算法也是根据用户自定义的区间数目，将属性的值域划分成 $K$ 个小区间。他要求落在每个区间的对象数目相等。譬如，属性的取值区间内共有 $M$ 个点，则等频区间所划分的 $K$ 个小区域内，每个区域含有 $\frac{M}{K}$ 个点。
(3) K-means聚类算法
首先由用户指定离散化产生的区间数目 $K$ ，K-均值算法首先从数据集中随机找出 $K$ 个数据作为 $K$ 个初始区间的重心；然后，根据这些重心的欧式距离，对所有的对象聚类：如果数据 $x$ 距重心 $G_i$ 最近，则将 $x$ 划归 $G_i$ 所代表的那个区间；然后重新计算各区间的重心，并利用新的重心重新聚类所有样本。逐步循环，直到所有区间的重心不再随算法循环而改变为止。