一、原理
数据离散化(也称,数据分组),指将连续的数据进行分组,使其变为一段离散化的区间。
根据离散化过程中是否考虑类别属性,可以将离散化算法分为:有监督算法和无监督算法。事实证明,由于有监督算法充分利用了类别属性的信息,所以再分类中能获得较高的正确率。
常用的数据离散化方法:
等宽分组
等频分组
单变量分组
基于信息熵分组
数据离散化所使用的方法需要事先对数据进行排序,且假设待离散化的数据是按照升序排序。
1、等宽分组
原理:根据分组的个数得出固定的宽度,分到每个组中的变量的宽度是相等的。
如:现在有一个待离散化的数组[1, 7, 12, 12, 22, 30, 34, 38, 46],需要分成三组,
那么,
,即宽度 =( 46 - 1)/3 = 15
分组后结果范围:[1,16],(16, 31],(31, 46],第一个分组取的是全闭区间,
分组后结果:[1, 7, 12, 12],[22, 30],[34, 38, 46]
2、等频分组
原理:等频分组也叫分位数分组,即分组后,每个分组的元素个数是一样的。
如:现在有一个待离散化的数组[1, 7, 12, 12, 22, 30, 34, 38, 46],需要分成三组,
那么,