前言
评分卡模型建立时,样本的好坏比和实际好坏比是不一致的,原因有二:
1、产品本身坏样本少,抽样时会对坏样本进行过抽样或者好样本进行欠抽样
2、未获取全量的原始数据,样本中的好坏比无法反映真实的情况
评分卡模型预测的是坏样本的概率,好坏比使用的是坏样本量/好样本量
概率校准
1、需要一个目标好坏比odds1
它可以是抽样前的产品真实好坏比(对应情况1),也可以是行业平均水平(对应情况2)
2、建模样本好坏比odds
在sigmoid函数转换前,只需要在逻辑回归拟合出来的截距上再加一个ln(odds1/odds)即可,原因:逻辑回归中的截距是约等于好坏比的对数的,即:把ln(odds)抵消掉,得到实际好坏比ln(odds1)
ln(odds1/odds) = ln(odds1)-ln(odds)
3、校准分数段的好坏比
对好坏比进行一个sigmoid的反函数,加上ln(odds1/odds),再用sigmoid函数运算回来
案例
继续使用上篇的数据
分组名称 | 本组客户 | 本组好客户 | 本组坏客户 | 好坏比(odds) | 坏样本占比 | |
0 | [300-320) | 15 | 4 | 11 | 2.75 | 73.33% |
1 | [320-340) | 163 | 40 | 123 | 3.08 | 75.46% |
2 | [340-360) | 257 | 97 | 160 | 1.65 | 62.26% |
3 | [360-380) | 324 | 117 | 207 | 1.77 | 63.89% |
4 | [380-400) | 357 | 163 | 194 | 1.19 | 54.34% |
5 | [400-420) | 374 | 160 | 214 | 1.34 | 57.22% |
6 | [420-440) | 533 | 228 | 305 | 1.34 | 57.22% |
7 | [440-460) | 1124 | 585 | 539 | 0.92 | 47.95% |
8< |