风控建模常用逻辑回归模型,模型的特征必须是数值型特征,因此需要对类别型特征进行编码;此外,为了获得模型的稳定性,建模时需要对数值型特征进行分箱处理。
最终,对进入模型的特征还要做单变量与多变量分析。
1、分箱简述
1.1分箱定义
(1)对于数值型变量,将数值范围分为几个有限的分段
(2)对于类别型变量,如果取值过多,将其合并为较少的几个分段
1.2分箱原因
(1)评分结果需要稳定性,当样本数值型变量发生较小波动,评分结果不应发生改变;
(2)对于类别型变量,当取值过多时,如果不分箱会发生变量膨胀,例如,对省份编码,独热编码会有31个变量,dummy也会有30个变量
1.3分箱要求
(1)取值较少的类别型变量不需要分箱
(2)分箱结果需要有序性
(3)分箱的平衡性:占比最小的箱数据不低于5%
(4)分箱的单调性:在要求严格的情况下,没想的坏样本率与箱呈单调关系;当非单调时,需要与前箱和后箱合并,选择前或后有两种方案:一种选择合并后卡方值小的方案;二是选择合并后更加均匀的方法,均匀程度的衡量方式:
箱的个数不能太多,一般5-7个;
(5)特殊值作为一箱,但不参与单调性比较,若特殊值的分箱样本占比低于5%,则与第一箱或最后一箱合并。
1.4分箱的优缺点
优点:
(1)比较稳定,