滚动率、Vintage、WOE、IV、LIFT、PSI、GINI

最新推荐文章于 2025-03-18 23:46:46 发布

sinat_37333675

最新推荐文章于 2025-03-18 23:46:46 发布

阅读量4.4k

点赞数 9

分类专栏：信用评分文章标签：数据分析

本文链接：https://blog.csdn.net/sinat_37333675/article/details/107631041

版权

信用评分专栏收录该内容

5 篇文章

订阅专栏

滚动率
滚动率分析就是从某个观察点之前的一段时间(称为观察期)的最坏的状态向观察点之后的一段时间(称为表现期)的最坏状态的发展变化情况。
在这里插入图片描述以2018年6月30日出现的账户为准，追踪其6月30日往前推180天的最大逾期天数和6月30日往后推180天的最大逾期天数，以此作为这笔贷款在观察期和表现期的最坏状态变化情况。M0表示从未逾期，M1为逾期1到30天，M2为逾期31到60天，M3为逾期61到90天。
在这里插入图片描述

M3状态变差的比例为53.28%，M4状态变差的比例为79.74%，二者有明显的跨越且M4变差的概率已非常高，因此基于上述滚动率分析结果可选择M4+作为坏定义。

Vintage
Vintage可以用来评估客户好坏充分暴露所需的时间。
提取2017年4月之后申请的账户数据，观察其之后每30天的M3+（即逾期60天以上）的逾期概率，连续观察至2018年12月。以下为Vintage图和Vintage数据表，图中统计的逾期用的是历史逾期状态(一笔贷款只要发生过M3+逾期，未来每个月都将该贷款记为M3+逾期贷款)，逾期率的计算使用的是笔数。
在这里插入图片描述

1.从图中可以看出，不同月份放款的M4+在经过9个周期(9个月)后趋于稳定，也就是说成熟期是在9个周期。
2.从图中还可以看出，资产质量不断提升，2017年4月至6月的逾期率相对较高，从2017年7月开始逾期率发生较大程度的下降，有可能因为前几个月不断优化风控策略所致。
WOE(weight of envidence) 证据权重
WOE衡量某一个分组相对于平均的表现情况：正WOE代表好于平均、负WOE表示坏于平均
计算公式： $woe_{i}=ln(\frac {bad_{i}/bad_{总}}{good_{i}/good_{总}})=ln(\frac {bad_{i}}{bad_{总}})-ln(\frac {good_{i}}{good_{总}})$
含义：每个分箱里的坏人分布相对于好人分布之间的差异性。
$woe_{i}=ln(\frac {bad_{i}/good_{i}}{bad_{总}/good_{总}})=ln(\frac {bad_{i}}{good_{i}})-ln(\frac {bad_{总}}{good_{总}})$
含义：每个分箱里坏好比相对于整体坏好比之间的差异性。WOE越大，差异越大，当前分组里的样本坏人的可能性就越大。
在这里插入图片描述
1.当前分组中，响应的比例越大，WOE值越大。
2.当前分组的比例小于样本整体比例时，WOE为负，当前分组的比例大于整体比例时，WOE为正，当前分组的比例和整体比例相等时，WOE为0。
3.WOE其实描述了变量当前这个分组，对判断个体是否会响应（或者说属于哪个类）所起到影响方向和大小，当WOE为正时，变量当前取值对判断个体是否会响应起到的正向的影响，当WOE为负时，起到了负向影响。而WOE值的大小，则是这个影响的大小的体现。

IV(information value)信息价值
计算公式： $iv_{i}=(\frac {bad_{i}}{bad_{总}}-\frac {good_{i}}{good_{总}})*woe_{i}$
$IV=\sum_{i}^miv_{i}$
考虑了这个分组中样本占整体样本的比例，比例越低，这个分组对变量整体预测能力的贡献越低。IV值越大，预测能力越强。
在这里插入图片描述
分箱方式
等距分箱：按照距离等分。不合理。若特征的变量有集中性，会导致大量样本聚集在一个箱子里，没有区分能力。
等频分箱：按照频率等分，每个箱子内有相同数量的样本。
卡方分箱：根据卡方值合并箱子，比较有道理。

Lift表
Lift是“运用该模型”和“未运用该模型”所得结果的比值。
将打分后的样本按分数从低到高排序，取10或20等分（有同分数对应多条观测的情况，所以各组观测数未必完全相等），并对组内观测数与坏样本数进行统计。用评分卡模型捕捉到的坏客户的占比，可由该组坏样本数除以总的坏样本数计算得出；而不使用此评分卡，以随机选择的方法覆盖到的坏客户占比，等价于该组观测数占总观测数的比例（分子分母同时乘以样本整体的坏账率）。对两者取累计值，取其比值，则得到提升度Lift，即该评分卡抓取坏客户的能力是随机选择的多少倍。
在这里插入图片描述

PSI (population stability index) 稳定度指标
由于模型是以特定时期的样本所开发的，此模型是否适用于开发样本之外的族群，必须经过稳定性测试才能得知。PSI可衡量测试样本及模型开发样本评分的的分布差异，为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后，针对不同样本，或者不同时间的样本，population分布是否有变化，就是看各个分数区间内人数占总人数的占比是否有显著变化。AC与EX为不同时间段的模型输出分数，如果PSI过大，说明模型输出的分数分布变化很大了，需要更新模型。
在这里插入图片描述
1.模型分数的稳定性:可以计算不同月份直接的PSI
2.入模特征的稳定性:根据特征进行分箱计算特征的PSI
GINI系数
业界在实际计算Gini系数时往往用ROC曲线曲线和中线围成的面积与中线之上面积的比例，也就是Gini=2AUC-1。

图.Gini coefficient与AUC
ROC空间是一个以伪阳性率(FPR, false positive rate)为X轴，真阳性率(TPR, true positive rate)为Y轴的二维坐标系所代表平面。

TPR: 真阳性率，所有阳性样本中(TP+FN)，被分类器正确判断为阳的比例。
TPR = TP / (TP + FN) = TP / 所有真实值为阳性的样本个数
FPR: 伪阳性率，所有阴性样本中(FP+TN)，被分类器错误判断为阳的比例。
FPR = FP / (FP + TN) = FP / 所有真实值为阴性的样本个数
洛伦兹曲线的纵轴是违约数占违约总量百分比的累计值，也就是TPR，而洛伦兹的横轴（被拒绝申请的百分比）是(FP+TP)/(TN+FP+FN+TP)，当坏样本很少时，FN和TP的值很小，因而洛伦兹曲线和ROC曲线横纵轴取值基本一致，曲线基本重合。当洛伦兹曲线和ROC曲线基本一致或者完全一致时，此时 AUC = 面积A+0.5，gini=A/(A+B)=2AUC-1。但当坏样本较多时，二者不重合，且差距较大。

最后的结论是：当样本中坏样本极少时可用gini=2AUC-1近似计算，当坏样本较多，或者好坏样本接近1:1时，那就得对gini单独计算比较准确。