违约预测模型后续工作

一、 从概率到分数

1、评分卡分数计算

逻辑回归模型得到两个信息,一是哪些特征是比较重要的,二是每个客户是否会违约的一个概率。至此模型并不是直接就能用了。实际我们不会直接用这个概率,而是将其映射到一些分数段当中。

(1)计算公式:

在这里插入图片描述
在这里插入图片描述

上述p:指违约概率:p越大,p/(1-p)越大,y越大,Base Point减去一个大的数,那score就会越小。就是说,违约概率p越大,最后的分数score越小,这个和实际逻辑也是相通的。
在这里插入图片描述

·Base Point:基准分,没有实际意义
·PDO:points to double odds:好坏比每升高一倍,评分增加一个PDO单位
好坏比:好样本/坏样本=(总样本-坏样本)/坏样本=总样本/坏样本-1=1/(坏样本/总样本)-1=1/p-1
这句话的证明过程如下:
在这里插入图片描述

分数一般是个整数,小数是没有意义的。

2、评分卡分数分级

在评分模型中,得到分数后需要对分数进行分级操作,将人群划分到有限的几个组别中。

划分方法:
将分数视为连续变量,采用监督式方法,例如best-KS或者ChiMerge进行有序划分,且一般划分为10组。

将最后计算得到的评分进行分层,持续跟踪表现期,每一层的实际违约率:
在这里插入图片描述

例如:2018年4月28号这一批人群,到2019年4月8号,有了完整的一年观察期。将2018年4月28号的100人分为5组,共有10人触发了坏样本定义的窗口,发生了逾期。实际违约率就是10%。

通常一组样本中,申请者申请的日期不会超过半年,就是说这一组样本中,最早申请的日期和最晚申请的日期跨度不超过半年。有个问题:

另外同时获取过去较长时间内(比如5~10年)的长期实际违约率(long run PD),以此为基准,得到校准率:

在这里插入图片描述

实际群体的违约率是有一个经济周期现象的,如果我拿到一个长期的违约率比短期违约率还低,那这个系数scaling我会选择1,如果长期违约率比这个短期违约率高,那选在后者。也就是说,在风控行业,我会选择将实际情况往坏处想,就是事先将情况想得严重一些。

预期违约率:

在这里插入图片描述

在这里插入图片描述

不同组别中中,分数越高,逾期率月底,同一分数组中,逾期违约率高于实际逾期率。

二、模型的验证与监控

1、模型验证

评分卡模型训练完之后,需要在验证集上进行验证(模型验证实际上是模型开发的一个环节)。

通常,需要选择跟训练样本所在的日期不同的日期的申请样本做为验证集,称为OOT(out of date test)。这是为了验证模型在时间上的效力跟稳定性。
举例说明OOT:
在这里插入图片描述

但是&#x

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值