原来这样做模型分数,稳定性与灵活性可以双保障!

我们在实际制作信贷风控评分卡模型的时候,往往会使用子模型叠加的方式来操作,这有两个好处:

1.增加模型稳定型。当一个数据源数据损坏的时候,我们可以简单的拿掉这个数据源;

2.及时使用新数据。当一个新数据源上线的时候,可以简单的增加一个新的子模型;

本文我们来讨论一种灵活增加减少子模型的方法。

在子模型基础之上做融合模型的时候一般会使用线性模型来做:

在这里插入图片描述

比方说我们有三个子模型,那融合模型就是:

在这里插入图片描述
如果这个时候,子模型3的数据坏掉了,我们的总模型就会变成

在这里插入图片描述

这样的简单处理方式可以保证融合模型仍然具有剩下两个子模型的区分度,但是分数分布会整体下移,且分布的方差会缩小,使得整体数据稳定性变差。

为了在去掉模型3后分数的分布不发生大的偏移,我们可以把分数融合时的权重做一个调整。

在调整的时候我们要考虑子分分数分布的标准差,这样在做权重调整时不会过多受到子分的波动影响。计算每个子分的标准差,然后融合模型公式改写如下:

在这里插入图片描述
其实就是在权重那边乘以一个标准差,在分数里除以一个标准差,对结果没有任何实质性的影响。

此时记录一个归一化项:

在这里插入图片描述
当增加或减少一两个子模型,剩余子模型的归一化项记录为:

在这里插入图片描述
那融合模型分其实就是剩余子分按两个归一化项做个权重调整:

在这里插入图片描述
化简后,融合分为:

在这里插入图片描述
我们接着上面三个模型的例子说。

三个模型在没发生任何问题的时候,融合分经过添加标准差的表达式为:

在这里插入图片描述
记录一个正常时候的归一化项:

在这里插入图片描述
假使模型3数据坏掉了,我们记录一个新的归一化项:

在这里插入图片描述
去掉模型3,融合模型分就调整为:

在这里插入图片描述
公式化简下,总的融合分就是剩余两个子分按照两个归一化项调整一下:

在这里插入图片描述
在真实数据中,我们把0~1的模型输出按照上述分配逻辑进行模拟,结果如下:

在这里插入图片描述
其中original data是三个模型的融合分,remove submodel 3是去掉子模型3的子分,可以看出直接去掉这个分,整体分数的分布和原有分差别很大,reweight是经过带标准差的权重调整后的分数分布,可以看出这个分数也和原有分数分布有差异,但相对的差异小很多。

文末特别提醒:
做子分权重调整不会增加融合模型的区分度,上图里remove submodel 3和reweight的两个版本子分的区分性能是一样的,区别在于reweight的分数分布更接近于原有没出故障的分数分布,这样整体分数变化差异会变小,信用分的分布稳定性相对好。

看完此文的你,学会了吗?关注金科应用研院,回复CSDN领取风控大礼包
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值