文章大纲
分箱操作简介
目的
分箱就是将连续变量离散化,合并成较少的状态
分箱操作的种类
- 等频分位数分箱
指定默认分箱个数后,将数据分箱到每个箱中并且每个箱中的数据量大致相等
- 等宽分箱
指定默认分箱个数后,按照列中的最小值到最大值之间,将数据N等分,数据分到每个箱中,和等频分箱相比每个箱中的数据量不固定
- 自定义区间 - 自定义区间分箱
一般来说仅针对对数据值列有效 - 连续特征自定义分箱区间,每条区间以;隔开。
每列的区间类似[col:]-inf,2.0,3.0,inf指定。
第一条自定义区间为对所有选定列的默认规则。
例子:
a_1:1.0,2.0;3.0, 4.0
即定义了[1.0,2.0]和[3.0,4.0]两个分箱区间
- 决策树分箱 DECISIONTREE
决策树分箱的原理就是用想要离散化的变量单变量用树模型拟合目标变量,例如直接使用sklearn提供的决策树(是