介绍分箱方法之前,首先要了解为什么分箱?
分箱的好处:
- 1.分箱后的特征对异常数据有更强的鲁棒性。比如年龄中有一个异常值为300,分箱之后就可能划到>80这一箱中,而如果直接入模的话会对模型造成很大干扰。
- 2.特征离散化之后,每个变量有单独的权重,可以为逻辑回归模型引入了非线性,能够提升模型表达能力,加大拟合。
- 3.特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。
- 4.可以将缺失作为独立的一类带入模型。
- 5.稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展。
引用来源:知乎链接
构建风控模型时,常用特征的分箱方法可以分为两大类:
有监督
Best-KS
ChiMerge
无监督
等频
等距
聚类
有监督分箱
1. Best-KS
1.1 KS值介绍
KS(Kolmogorov-Smirnov)用于模型风险区分能力进行评估,指标衡量的是好坏样本累计部分之间的差距 。KS值越大,表示该变量越能将正,负客户的区分程度越大。通常来说,KS>0.2即表示特征有较好的准确率。强调一下,这
里的KS值是变量的KS值,而不是模型的KS值。(后面的模型评估里会重点讲解模型的KS值)。
BestKs方法其实就是找到变量中的最优KS值进行切分。
1.2 KS的计算方式:
计算每个评分区间的好坏账户数。
计算各每个评分区间的累计好账户数占总好账户数比率(good%)和累计坏账户数占总坏账户数比率(bad%)。
计算每个评分区间累计坏账户比与累计好账户占比差的绝对值(累计good%-累计bad%),然后对这些绝对值取最大值记得到KS值。
在例子中,以第一行为例:
cum_bad_rate = 88/(88+65+49+45+36+26+22+9+2+0)=88/342 = 25.73%
cum_good_rate = 2/(2+24+40+45+5