我们在实际制作信贷风控评分卡模型的时候,往往会使用子模型叠加的方式来操作,这有两个好处:
1.增加模型稳定型。当一个数据源数据损坏的时候,我们可以简单的拿掉这个数据源;
2.及时使用新数据。当一个新数据源上线的时候,可以简单的增加一个新的子模型;
本文我们来讨论一种灵活增加减少子模型的方法。
在子模型基础之上做融合模型的时候一般会使用线性模型来做:
比方说我们有三个子模型,那融合模型就是:
如果这个时候,子模型3的数据坏掉了,我们的总模型就会变成
这样的简单处理方式可以保证融合模型仍然具有剩下两个子模型的区分度,但是分数分布会整体下移,且分布的方差会缩小,使得整体数据稳定性变差。
为了在去掉模型3后分数的分布不发生大的偏移,我们可以把分数融合时的权重做一个调整。
在调整的时候我们要考虑子分分数分布的标准差,这样在做权重调整时不会过多受到子分的波动影响。计算每个子分的标准差,然后融合模型公式改写如下:
其实就是在权重那边乘以一个标准差,在分数里除以一个标准差,对结果没有任何实质性的影响。
此时记录一个归一化项:
当增加或减少一两个子模型,剩余子模型的归一化项记录为:
那融合模型分其实就是剩余子分按两个归一化项做个权重调整:
化简后,融合分为:
我们接着上面三个模型的例子说。
三个模型在没发生任何问题的时候,融合分经过添加标准差的表达式为:
记录一个正常时候的归一化项:
假使模型3数据坏掉了,我们记录一个新的归一化项:
去掉模型3,融合模型分就调整为:
公式化简下,总的融合分就是剩余两个子分按照两个归一化项调整一下:
在真实数据中,我们把0~1的模型输出按照上述分配逻辑进行模拟,结果如下:
其中original data是三个模型的融合分,remove submodel 3是去掉子模型3的子分,可以看出直接去掉这个分,整体分数的分布和原有分差别很大,reweight是经过带标准差的权重调整后的分数分布,可以看出这个分数也和原有分数分布有差异,但相对的差异小很多。
文末特别提醒:
做子分权重调整不会增加融合模型的区分度,上图里remove submodel 3和reweight的两个版本子分的区分性能是一样的,区别在于reweight的分数分布更接近于原有没出故障的分数分布,这样整体分数变化差异会变小,信用分的分布稳定性相对好。
看完此文的你,学会了吗?关注金科应用研院,回复CSDN领取风控大礼包