一、 从概率到分数
1、评分卡分数计算
逻辑回归模型得到两个信息,一是哪些特征是比较重要的,二是每个客户是否会违约的一个概率。至此模型并不是直接就能用了。实际我们不会直接用这个概率,而是将其映射到一些分数段当中。
(1)计算公式:
上述p:指违约概率:p越大,p/(1-p)越大,y越大,Base Point减去一个大的数,那score就会越小。就是说,违约概率p越大,最后的分数score越小,这个和实际逻辑也是相通的。
·Base Point:基准分,没有实际意义
·PDO:points to double odds:好坏比每升高一倍,评分增加一个PDO单位
好坏比:好样本/坏样本=(总样本-坏样本)/坏样本=总样本/坏样本-1=1/(坏样本/总样本)-1=1/p-1
这句话的证明过程如下:
分数一般是个整数,小数是没有意义的。
2、评分卡分数分级
在评分模型中,得到分数后需要对分数进行分级操作,将人群划分到有限的几个组别中。
划分方法:
将分数视为连续变量,采用监督式方法,例如best-KS或者ChiMerge进行有序划分,且一般划分为10组。
将最后计算得到的评分进行分层,持续跟踪表现期,每一层的实际违约率:
例如:2018年4月28号这一批人群,到2019年4月8号,有了完整的一年观察期。将2018年4月28号的100人分为5组,共有10人触发了坏样本定义的窗口,发生了逾期。实际违约率就是10%。
通常一组样本中,申请者申请的日期不会超过半年,就是说这一组样本中,最早申请的日期和最晚申请的日期跨度不超过半年。有个问题:
另外同时获取过去较长时间内(比如5~10年)的长期实际违约率(long run PD),以此为基准,得到校准率:
实际群体的违约率是有一个经济周期现象的,如果我拿到一个长期的违约率比短期违约率还低,那这个系数scaling我会选择1,如果长期违约率比这个短期违约率高,那选在后者。也就是说,在风控行业,我会选择将实际情况往坏处想,就是事先将情况想得严重一些。
预期违约率:
不同组别中中,分数越高,逾期率月底,同一分数组中,逾期违约率高于实际逾期率。
二、模型的验证与监控
1、模型验证
评分卡模型训练完之后,需要在验证集上进行验证(模型验证实际上是模型开发的一个环节)。
通常,需要选择跟训练样本所在的日期不同的日期的申请样本做为验证集,称为OOT(out of date test)。这是为了验证模型在时间上的效力跟稳定性。
举例说明OOT:
但是&#x