将连续值离散化的问题,在数据挖掘和机器学习的任务中并不鲜见,当然离散化的方法也有很多。
本文将要介绍的是一种基于数据标签(label)来对连续数据值做离散化分割的监督学习方法。
问题:
考虑有如下数据:
1,0
2,0
3,0
4,0
5,0
6,1
7,1
8,1
9,1
10,1
第一列是连续值数据,而第二列是数据的类别标签(label)
我们希望对数据进行划分,使得划分的结果符合数据的类标签的分布。
即,预期前5个值为一段,后5个值为另一段。
将连续值离散化的问题,在数据挖掘和机器学习的任务中并不鲜见,当然离散化的方法也有很多。
本文将要介绍的是一种基于数据标签(label)来对连续数据值做离散化分割的监督学习方法。
问题:
考虑有如下数据:
1,0
2,0
3,0
4,0
5,0
6,1
7,1
8,1
9,1
10,1
第一列是连续值数据,而第二列是数据的类别标签(label)
我们希望对数据进行划分,使得划分的结果符合数据的类标签的分布。
即,预期前5个值为一段,后5个值为另一段。