熟悉的指标，多重的应用

最新推荐文章于 2024-04-28 11:20:38 发布

金科应用研院

最新推荐文章于 2024-04-28 11:20:38 发布

阅读量235

点赞数

分类专栏：互联网金融风控策略文章标签：风控指标评分模型

本文链接：https://blog.csdn.net/BiAnTi/article/details/115542683

版权

互联网金融同时被 2 个专栏收录

70 篇文章 21 订阅

订阅专栏

风控策略

65 篇文章 25 订阅

订阅专栏

在各行各业都有很多专业的指标，界定行业、项目发展标准。在金融行业风险管理领域，也同样存在各种风控指标，辅助风控业者判定风险管理水平的优劣，比如FSTQPD、App_rate、Delq_rate。

大部分风控指标功能单一，比如App_rate就是表示申请进件的通过率，大家兢兢业业在自己领域做贡献，但有一些超强指标，在跨界之间产生应用，发生不一样的化学反应。

今天，我就重点聊聊Gini和PSI这两个指标，在量化风控上如何实现多重应用。

1、GINI

GINI指标最早在量化风控上主要用于评分模型，对于训练出来的分数模型，需要一系列指标对模型进行稳定性、区分能力等效能度量。Gini系数是国际上通用的，用以衡量一个国家或地区居民收入差距的常用指标，所以，运用在评分模型中它也是表征评分模型的区分能力。

Gini的计算公式（我知道没几个人愿意看公式，但我写出来的目的是警示大家这个Gini和基尼不纯度的本质区别）

cpY是收入排序后的累计比例，cpX是人口的累积比例，其结果是一个秩相关系数，很多统计软件包比如SAS提供的Some’s D，其实就是Gini系数。

1.1 GINI在模型中的应用

在评分模型中，可以看下面表来理解下Gini的计算过程

其中，G_num代表好客户数量，B_num代表坏客户数量，Retain代表累积。

虽然Gini指标与Ks一样也是金融评分模型界通用的核心指标，但是它的使用也是有2点需要注意的地方：

评估评分卡的区分能力时，如果坏客户的定义不是那么严格，Gini系数对应代表的区分能力可能被夸大效果；
Gini对目标变量类别的定义比较敏感，比如账户的好坏。
所以要想Gini指标精确有效，那么目标变量Y的定义在评分卡开发初期是十分重要和严谨的步骤。

Gini系数的不同范围值对应的评分模型区分能力高低也不一样，行业内也没有一个绝对标准，以下个人经验，可供参考：

针对评分卡集群来说，申请评分卡集的GINI标准：

Gini<0.3,模型不太能接受；
0.3<=Gini<0.35,模型区分能力一般，模型有优化空间；
0.35<=Gini<=0.5,模型区分能力比较满意；
Gini>0.5，Gini越高越有过拟合的可能性；

行为评分卡集群的GINI标准：

Gini可能会超过0.8；
Gini<0.6，可能模型有问题。

当然了，对于单一子评分卡模型的话，Gini的接受浮动就比较大了，比如某一特定场景开发出的申请评分卡，因为IV高于0.1的变量本身就很少了，这个时候的Gini标准就不需要再采用模型集群的GINI标准了。

SAS可以直接用test SMDRC调出Gini结果，Python和R读者朋友们可以按照上述公式写一下计算过程

1.2 GINI在监控预警中的应用

在量化监控预警体系中，通过建立预警指标数据集市，预警规则，预警方式（如邮件），以便快速监控指标有效性变化，及时预警。预警规则的发生条件，仍可以用GINI作为判定指标。

通用规则逻辑可以如下：

一周内逾期指标Gini前10%的异常规则
连续周期内GINI，分组逾期率上升或下降5%

举个例子，以FPD10逾期指标为目标，计算监控规则变量的Gini值，并对Gini前10%排名的规则变量作为预警规则。简化代码逻辑可以如下：

*GINI:

if bad_fpd10_col_pct_i>0 then fpd10_Gini=1-{(good_fpd10_col_pct_i+good_fpd10_col_pct_i-1)*(bad_fpd10_col_pct_i-bad_fpd10_col_pct_i-1)};

else fpd10_Gini=0;

GINI在监控预警方面的应用效果如下

2、PSI

在金融行业里，大家对于系统稳定运行比精准运行，往往有更迫切的需求。这也是为什么位于国内四大行之首的工商银行，观察其后台系统可以发现，业务系统还是多年没升级。造成这样的原因是多方面的，但其中有一方面是基于系统稳定运行的考虑。同样在风险管理上，对于风险稳定性的监控也十分重要，在这之上才会考虑风险的精准识别，以及差异化客群风险定价。

衡量稳定度的量化指标有很多，其中最好用也最容易理解的是PSI指标。

2.1 PSI指标

PSI是Population Stability Index的简称，最早运用于评估评分模型的稳定性。对于大多数金融风控从业者，对于PSI指标的认识还是源于评分模型，也止于评分模型。其实，PSI指标在风控策略、产品利率等多方面也有应用。

PSI的计算公式=SUM((Actual % - Expected %)*(LN(Actual % / Expected %)从PSI公式中可以看出，它本质是反应实际情况与预测期望之间的差异化程度。差异化程度越大，对于模型稳定性越差；反之越强。

以评分模型稳定性为例，我为读者朋友们解析下PSI的计算逻辑。

上图示例1中将评分分数等频分为10等级，观测记录2018年11月28日之后每周不同评分等级客户申请进件比例。

在计算模型PSI之前，需要设定与评分等级对应的基准分段。本例中基准分段标准：以建模时通过单的十等分的阈值，对建模取数期间所有申请进行分组，并计算每组数量的占比。

上图示例2中，以2018年11月28日第一行第二列为例，基准分段为7.83%的2018年11月28日PSI：0.0032122029230877=(6.33%-7.83%)*LN(6.33%/7.83%)。同理计算出2018年11月28日其他分段的PSI，最终2018年11月28日模型PSI=各分段PSI之和。

2.2 PSI在评分模型中的应用

PSI在模型中的应用主要体现在两个方面，一个是单变量的PSI，一个是模型分数的PSI，上图示例1-3展示的是模型分数的PSI。

一次模型的迭代更新，在部署时往往会耗费大量的时间。为了避免经常性迭代模型，在建模的时候就必须保证模型的稳定性。因此在建模过程中，常常会按时间段切分样本并计算各个变量的PSI（或建模样本与时段外验证集之间的PSI），以筛除那些随时间推移波动特别大的变量。

除此之外，在对模型进行监控时，对稳定性的监控也是必不可少的，需要及时监控是否有客群发生偏移的情况，找到发生偏移的原因并确定是否需要调整模型或者策略。

首先需要监控的是不同时间区间内模型分数的稳定性，如果发现模型总分的PSI较高，则需要通过计算每个入模变量的PSI来寻找原因，发现是哪一个变量导致的分数不稳定后，则需要根据这个变量的特征来调整策略，或如果认为这种波动性会持续下去的话，需要考虑是否将这个变量剔除在模型之外。

3PSI在风控策略中的应用

PSI作为稳定性度量指标，不仅可以运用于评分模型中，仍然可以风控策略中发挥作用。

在策略A类和D类调优中，我们往往通过观测不同时间节点或时间跨度内规则节点的波动差，来确定主要引起通过率下降和逾期率上升的一个或多个核心规则，进一步确认策略调优阈值方案。

波动差与之对应的即是稳定度，波动越大，PSI越大，表示规则影响风险往不稳定方向发生。所以，仍可以运用PSI判断节点主次要拒绝影响。

上图示例4中运用PSI=(B-A)*LN(B/A)测算波动差，A节点的PSI为0.77%，B节点的PSI为0.01%，最终可确定A节点是导致通过率下降的核心策略节点。

尾叙

不论是GINI、PSI、IV，还是其他具有特殊意义的风控指标，我们只有在理解其基础计算逻辑和业务意义后，才能创造性地赋予其更多的功能，更好的帮助我们做好量化风险管理。