1.过程
连续属性的离散化就是在数值的取值范围内设定若干点离散的划分点,划分区间,然后用不同的符号去表示落在每个子区间的数据值。
离散化涉及两个任务,确定分类数以及将连续属性值映射到这些分类值。
2.方法
(1)等宽法
将属性的值域分成具有相同宽度的区间;
(2)等频法
将相同数量的记录放进每个区间
等宽法对离群点比较敏感,等频法则可能将相同的数值分到不同的区间。
(3)基于聚类分析的方法
一维聚类的方法包括两个步骤,首先将连续属性的值用聚类算法进行聚类,然后再将聚类得到的簇进行处理
可参考:https://blog.csdn.net/Katherine_hsr/article/details/79382249