一.等距分箱/等宽分箱
1.概念:将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。
2.方法
- 数学运算:通过向上取整ceil() 和 向下取整floor()
-- 对col进行0.1宽度的分箱 select col, ceil(col*10)/10 as group1, floor(col*10)/10 as group2 from( select stock(5, 0.1, 0.15, 0.20, 0.25, 0.3) as col ) as a
二.等频分箱
1.概念:把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当作一个分箱,即百分位数的概念。
2.方法
- Ntile(n) over(order by col)