风控场景下的常用特征分箱介绍：BestKs分箱、卡方分箱、聚类分箱等

最新推荐文章于 2025-03-16 21:52:22 发布

楓尘林间

最新推荐文章于 2025-03-16 21:52:22 发布

阅读量1w

点赞数 10

分类专栏：机器学习金融数据分析

本文链接：https://blog.csdn.net/bowenlaw/article/details/104968835

版权

介绍分箱方法之前，首先要了解为什么分箱？

分箱的好处：

1.分箱后的特征对异常数据有更强的鲁棒性。比如年龄中有一个异常值为300，分箱之后就可能划到>80这一箱中，而如果直接入模的话会对模型造成很大干扰。
2.特征离散化之后，每个变量有单独的权重，可以为逻辑回归模型引入了非线性，能够提升模型表达能力，加大拟合。
3.特征离散化以后，起到了简化了逻辑回归模型的作用，降低了模型过拟合的风险。
4.可以将缺失作为独立的一类带入模型。
5.稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展。

引用来源：知乎链接

构建风控模型时，常用特征的分箱方法可以分为两大类：

有监督
    Best-KS
    ChiMerge
无监督
    等频
    等距
    聚类

有监督分箱

1. Best-KS

1.1 KS值介绍

KS(Kolmogorov-Smirnov)用于模型风险区分能力进行评估，指标衡量的是好坏样本累计部分之间的差距。KS值越大，表示该变量越能将正，负客户的区分程度越大。通常来说，KS>0.2即表示特征有较好的准确率。强调一下，这
里的KS值是变量的KS值，而不是模型的KS值。（后面的模型评估里会重点讲解模型的KS值）。

BestKs方法其实就是找到变量中的最优KS值进行切分。

1.2 KS的计算方式：

计算每个评分区间的好坏账户数。
计算各每个评分区间的累计好账户数占总好账户数比率（good%)和累计坏账户数占总坏账户数比率（bad%）。
计算每个评分区间累计坏账户比与累计好账户占比差的绝对值（累计good%-累计bad%），然后对这些绝对值取最大值记得到KS值。

在这里插入图片描述

在例子中，以第一行为例：

cum_bad_rate = 88/(88+65+49+45+36+26+22+9+2+0)=88/342 = 25.73%
cum_good_rate = 2/(2+24+40+45+5

最低0.47元/天解锁文章