风控场景下的常用特征分箱介绍:BestKs分箱、卡方分箱、聚类分箱等

介绍分箱方法之前,首先要了解为什么分箱?

分箱的好处:

  • 1.分箱后的特征对异常数据有更强的鲁棒性。比如年龄中有一个异常值为300,分箱之后就可能划到>80这一箱中,而如果直接入模的话会对模型造成很大干扰。
  • 2.特征离散化之后,每个变量有单独的权重,可以为逻辑回归模型引入了非线性,能够提升模型表达能力,加大拟合。
  • 3.特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。
  • 4.可以将缺失作为独立的一类带入模型。
  • 5.稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展。

引用来源:知乎链接

构建风控模型时,常用特征的分箱方法可以分为两大类:

有监督
    Best-KS
    ChiMerge
无监督
    等频
    等距
    聚类

有监督分箱

1. Best-KS
1.1 KS值介绍

KS(Kolmogorov-Smirnov)用于模型风险区分能力进行评估,指标衡量的是好坏样本累计部分之间的差距 。KS值越大,表示该变量越能将正,负客户的区分程度越大。通常来说,KS>0.2即表示特征有较好的准确率。强调一下,这
里的KS值是变量的KS值,而不是模型的KS值。(后面的模型评估里会重点讲解模型的KS值)。

BestKs方法其实就是找到变量中的最优KS值进行切分。

1.2 KS的计算方式:
计算每个评分区间的好坏账户数。
计算各每个评分区间的累计好账户数占总好账户数比率(good%)和累计坏账户数占总坏账户数比率(bad%)。
计算每个评分区间累计坏账户比与累计好账户占比差的绝对值(累计good%-累计bad%),然后对这些绝对值取最大值记得到KS值。

在这里插入图片描述

在例子中,以第一行为例:

cum_bad_rate = 88/(88+65+49+45+36+26+22+9+2+0)=88/342 = 25.73%
cum_good_rate = 2/(2+24+40+45+5
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值