1. 离散化技术分类
连续属性的离散化方法也可以被称为分箱法,即将一组连续的值根据一定的规则分别放到其术语的集合中。
离散化技术可以根据如何对数据进行离散化加以分类,可以根据是否使用类信息或根据进行方向(即自顶向下或自底向上)分类。
如果离散化过程使用类信息,则称它为监督离散化(superviseddiscretization);否则是非监督的(unsupervised)。
如果首先找出一点或几个点(称作分裂点或割点)来划分整个属性区间,然后在结果区间上递归地重复这一过程,则称它为自顶向下离散化或分裂。自底向上离散化或合并正好相反,首先将所有的连续值看作可能的分裂点,通过合并相邻域的值形成区间,然后递归地应用这一过程于结果区间。
2.无监督离散化与监督离散化
根据数据是否包含类别信息可以把它们分成有监督的数据和无监督的数据。有监督的离散化要考虑类别信息而无监督的离散化则不需要。
2.1 无监督离散化
假设属性的取值空间为 X={
X1,X2,⋯,Xn} ,离散化之后的类标号是 Y={
Y1,Y2,⋯,Ym} ,则无监督离散化的情况就是 X 已知而
(1) 等宽算法
根据用户指定的区间数目 K ,将属性的值域
(2) 等频算法
等频算法也是根据用户自定义的区间数目,将属性的值域划分成 K 个小区间。他要求落在每个区间的对象数目相等。譬如,属性的取值区间内共有
(3) K-means聚类算法
首先由用户指定离散化产生的区间数目 K ,K-均值算法首先从数据集中随机找出
2.2 监督离散化
监督离散化就是事先 X 和
以下介绍的自下而上或者自上而下的分类方法都属于监督离散化方法。
3. 齐次性的卡方检验
在介绍两种基于卡方检验的离散化算法之前,先来介绍一下齐次性的卡方检验。
数据:有 r 个总体。
从每个总体中抽取一个随机变量,记第