学习笔记:简单的数据离散化方法:分箱(Binning)
分箱的方法主要有两种,等频(等深,Equal-depth)和等距(等宽,Equal-width)
等频:本质上来说就是用数据集中的最大值减最小值再除以要分的箱数,作为每个分段的区间,举个例子,数据集: [2, 6, 8, 10, 19, 21, 23], 分为3段
W = (23 - 2) / 3 = 7
bin1: [2, 6, 8] (2 - 9)
bin2: [10, 19] (10 - 17)
bin3: [21, 23] (18 - 25)
等距:
就是直接分为数量大致相同的一个个区间,无视值的范围,同上一个例子:
bin1: [2, 6, 8]
bin2: [10, 19]
bin3: [21, 23]