滚动率、Vintage、WOE、IV、LIFT、PSI、GINI

滚动率
滚动率分析就是从某个观察点之前的一段时间(称为观察期)的最坏的状态向观察点之后的一段时间(称为表现期)的最坏状态的发展变化情况。
在这里插入图片描述以2018年6月30日出现的账户为准,追踪其6月30日往前推180天的最大逾期天数和6月30日往后推180天的最大逾期天数,以此作为这笔贷款在观察期和表现期的最坏状态变化情况。M0表示从未逾期,M1为逾期1到30天,M2为逾期31到60天,M3为逾期61到90天。
在这里插入图片描述
在这里插入图片描述

M3状态变差的比例为53.28%,M4状态变差的比例为79.74%,二者有明显的跨越且M4变差的概率已非常高,因此基于上述滚动率分析结果可选择M4+作为坏定义。

Vintage
Vintage可以用来评估客户好坏充分暴露所需的时间。
提取2017年4月之后申请的账户数据,观察其之后每30天的M3+(即逾期60天以上)的逾期概率,连续观察至2018年12月。以下为Vintage图和Vintage数据表,图中统计的逾期用的是历史逾期状态(一笔贷款只要发生过M3+逾期,未来每个月都将该贷款记为M3+逾期贷款),逾期率的计算使用的是笔数。
在这里插入图片描述
在这里插入图片描述
1.从图中可以看出,不同月份放款的M4+在经过9个周期(9个月)后趋于稳定,也就是说成熟期是在9个周期。
2.从图中还可以看出,资产质量不断提升,2017年4月至6月的逾期率相对较高,从2017年7月开始逾期率发生较大程度的下降,有可能因为前几个月不断优化风控策略所致。
WOE(weight of envidence) 证据权重
WOE衡量某一个分组相对于平均的表现情况:正WOE代表好于平均、负WOE表示坏于平均
计算公式: w o e i = l n ( b a d i / b a d 总 g o o d i / g o o d 总 ) = l n ( b a d i b a d 总 ) − l n ( g o o d i g o o d 总 ) woe_{i}=ln(\frac {bad_{i}/bad_{总}}{good_{i}/good_{总}})=ln(\frac {bad_{i}}{bad_{总}})-ln(\frac {good_{i}}{good_{总}}) woei=ln(goodi/goodbadi/bad)=ln(badbadi)ln(goodgoodi)
含义:每个分箱里的坏人分布相对于好人分布之间的差异性。
w o e i = l n ( b a d i / g o o d i b a d 总 / g o o d 总 ) = l n ( b a d i g o o d i ) − l n ( b a d 总 g o o d 总 ) woe_{i}=ln(\frac {bad_{i}/good_{i}}{bad_{总}/good_{总}})=ln(\frac {bad_{i}}{good_{i}})-ln(\frac {bad_{总}}{good_{总}}) woei=ln(bad/goodbadi/goodi)=ln(goodibadi)ln(goodbad)
含义:每个分箱里坏好比相对于整体坏好比之间的差异性。WOE越大,差异越大,当前分组里的样本坏人的可能性就越大。
在这里插入图片描述
1.当前分组中,响应的比例越大,WOE值越大。
2.当前分组的比例小于样本整体比例时,WOE为负,当前分组的比例大于整体比例时,WOE为正,当前分组的比例和整体比例相等时,WOE为0。
3.WOE其实描述了变量当前这个分组,对判断个体是否会响应(或者说属于哪个类)所起到影响方向和大小,当WOE为正时,变量当前取值对判断个体是否会响应起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。

IV(information value)信息价值
计算公式: i v i = ( b a d i b a d 总 − g o o d i g o o d 总 ) ∗ w o e i iv_{i}=(\frac {bad_{i}}{bad_{总}}-\frac {good_{i}}{good_{总}})*woe_{i} ivi=(badbadigoodgoodi)woei
I V = ∑ i m i v i IV=\sum_{i}^miv_{i} IV=imivi
考虑了这个分组中样本占整体样本的比例,比例越低,这个分组对变量整体预测能力的贡献越低。IV值越大,预测能力越强。
在这里插入图片描述
分箱方式
等距分箱:按照距离等分。不合理。若特征的变量有集中性,会导致大量样本聚集在一个箱子里,没有区分能力。
等频分箱:按照频率等分,每个箱子内有相同数量的样本。
卡方分箱:根据卡方值合并箱子,比较有道理。

Lift表
Lift是“运用该模型”和“未运用该模型”所得结果的比值。
将打分后的样本按分数从低到高排序,取10或20等分(有同分数对应多条观测的情况,所以各组观测数未必完全相等),并对组内观测数与坏样本数进行统计。用评分卡模型捕捉到的坏客户的占比,可由该组坏样本数除以总的坏样本数计算得出;而不使用此评分卡,以随机选择的方法覆盖到的坏客户占比,等价于该组观测数占总观测数的比例(分子分母同时乘以样本整体的坏账率)。对两者取累计值,取其比值,则得到提升度Lift,即该评分卡抓取坏客户的能力是随机选择的多少倍。
在这里插入图片描述
在这里插入图片描述
PSI (population stability index) 稳定度指标
由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知。PSI可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有显著变化。AC与EX为不同时间段的模型输出分数,如果PSI过大,说明模型输出的分数分布变化很大了,需要更新模型。
在这里插入图片描述
1.模型分数的稳定性:可以计算不同月份直接的PSI
2.入模特征的稳定性:根据特征进行分箱计算特征的PSI
GINI系数
业界在实际计算Gini系数时往往用ROC曲线曲线和中线围成的面积与中线之上面积的比例,也就是Gini=2AUC-1。

图.Gini coefficient与AUC
ROC空间是一个以伪阳性率(FPR, false positive rate)为X轴,真阳性率(TPR, true positive rate)为Y轴的二维坐标系所代表平面。

TPR: 真阳性率,所有阳性样本中(TP+FN),被分类器正确判断为阳的比例。
TPR = TP / (TP + FN) = TP / 所有真实值为阳性的样本个数
FPR: 伪阳性率,所有阴性样本中(FP+TN),被分类器错误判断为阳的比例。
FPR = FP / (FP + TN) = FP / 所有真实值为阴性的样本个数
洛伦兹曲线的纵轴是违约数占违约总量百分比的累计值,也就是TPR,而洛伦兹的横轴(被拒绝申请的百分比)是(FP+TP)/(TN+FP+FN+TP),当坏样本很少时,FN和TP的值很小,因而洛伦兹曲线和ROC曲线横纵轴取值基本一致,曲线基本重合。当洛伦兹曲线和ROC曲线基本一致或者完全一致时,此时 AUC = 面积A+0.5,gini=A/(A+B)=2AUC-1。但当坏样本较多时,二者不重合,且差距较大。

最后的结论是:当样本中坏样本极少时可用gini=2AUC-1近似计算,当坏样本较多,或者好坏样本接近1:1时,那就得对gini单独计算比较准确。

  • 9
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值