熟悉的指标,多重的应用

在各行各业都有很多专业的指标,界定行业、项目发展标准。在金融行业风险管理领域,也同样存在各种风控指标,辅助风控业者判定风险管理水平的优劣,比如FSTQPD、App_rate、Delq_rate。

大部分风控指标功能单一,比如App_rate就是表示申请进件的通过率,大家兢兢业业在自己领域做贡献,但有一些超强指标,在跨界之间产生应用,发生不一样的化学反应。

今天,我就重点聊聊Gini和PSI这两个指标,在量化风控上如何实现多重应用。

1、GINI

GINI指标最早在量化风控上主要用于评分模型,对于训练出来的分数模型,需要一系列指标对模型进行稳定性、区分能力等效能度量。Gini系数是国际上通用的,用以衡量一个国家或地区居民收入差距的常用指标,所以,运用在评分模型中它也是表征评分模型的区分能力。

Gini的计算公式(我知道没几个人愿意看公式,但我写出来的目的是警示大家这个Gini和基尼不纯度的本质区别)

cpY是收入排序后的累计比例,cpX是人口的累积比例,其结果是一个秩相关系数,很多统计软件包比如SAS提供的Some’s D,其实就是Gini系数。

1.1 GINI在模型中的应用

在评分模型中,可以看下面表来理解下Gini的计算过程

其中,G_num代表好客户数量,B_num代表坏客户数量,Retain代表累积。

虽然Gini指标与Ks一样也是金融评分模型界通用的核心指标,但是它的使用也是有2点需要注意的地方:

评估评分卡的区分能力时,如果坏客户的定义不是那么严格,Gini系数对应代表的区分能力可能被夸大效果;
Gini对目标变量类别的定义比较敏感,比如账户的好坏。
所以要想Gini指标精确有效,那么目标变量Y的定义在评分卡开发初期是十分重要和严谨的步骤。

Gini系数的不同范围值对应的评分模型区分能力高低也不一样,行业内也没有一个绝对标准,以下个人经验,可供参考:

针对评分卡集群来说,申请评分卡集的GINI标准:

Gini<0.3,模型不太能接受;
0.3<=Gini<0.35,模型区分能力一般,模型有优化空间;
0.35<=Gini<=0.5,模型区分能力比较满意;
Gini>0.5,Gini越高越有过拟合的可能性;

行为评分卡集群的GINI标准:

Gini可能会超过0.8;
Gini<0.6,可能模型有问题。

当然了,对于单一子评分卡模型的话,Gini的接受浮动就比较大了,比如某一特定场景开发出的申请评分卡,因为IV高于0.1的变量本身就很少了,这个时候的Gini标准就不需要再采用模型集群的GINI标准了。

SAS可以直接用test SMDRC调出Gini结果,Python和R读者朋友们可以按照上述公式写一下计算过程

1.2 GINI在监控预警中的应用

在量化监控预警体系中,通过建立预警指标数据集市,预警规则,预警方式(如邮件),以便快速监控指标有效性变化,及时预警。预警规则的发生条件,仍可以用GINI作为判定指标。

通用规则逻辑可以如下:

一周内逾期指标Gini前10%的异常规则
连续周期内GINI,分组逾期率上升或下降5%

举个例子,以FPD10逾期指标为目标,计算监控规则变量的Gini值,并对Gini前10%排名的规则变量作为预警规则。简化代码逻辑可以如下:

*GINI:

if bad_fpd10_col_pct_i>0 then fpd10_Gini=1-{(good_fpd10_col_pct_i+good_fpd10_col_pct_i-1)*(bad_fpd10_col_pct_i-bad_fpd10_col_pct_i-1)};

else fpd10_Gini=0;

GINI在监控预警方面的应用效果如下

2、PSI

在金融行业里,大家对于系统稳定运行比精准运行,往往有更迫切的需求。这也是为什么位于国内四大行之首的工商银行,观察其后台系统可以发现,业务系统还是多年没升级。造成这样的原因是多方面的,但其中有一方面是基于系统稳定运行的考虑。同样在风险管理上,对于风险稳定性的监控也十分重要,在这之上才会考虑风险的精准识别,以及差异化客群风险定价。

衡量稳定度的量化指标有很多,其中最好用也最容易理解的是PSI指标。

2.1 PSI指标

PSI是Population Stability Index的简称,最早运用于评估评分模型的稳定性。对于大多数金融风控从业者,对于PSI指标的认识还是源于评分模型,也止于评分模型。其实,PSI指标在风控策略、产品利率等多方面也有应用。

PSI的计算公式=SUM((Actual % - Expected %)*(LN(Actual % / Expected %)从PSI公式中可以看出,它本质是反应实际情况与预测期望之间的差异化程度。差异化程度越大,对于模型稳定性越差;反之越强。

以评分模型稳定性为例,我为读者朋友们解析下PSI的计算逻辑。

上图示例1中将评分分数等频分为10等级,观测记录2018年11月28日之后每周不同评分等级客户申请进件比例。

在计算模型PSI之前,需要设定与评分等级对应的基准分段。本例中基准分段标准:以建模时通过单的十等分的阈值,对建模取数期间所有申请进行分组,并计算每组数量的占比。

上图示例2中,以2018年11月28日第一行第二列为例,基准分段为7.83%的2018年11月28日PSI:0.0032122029230877=(6.33%-7.83%)*LN(6.33%/7.83%)。同理计算出2018年11月28日其他分段的PSI,最终2018年11月28日模型PSI=各分段PSI之和。

2.2 PSI在评分模型中的应用

PSI在模型中的应用主要体现在两个方面,一个是单变量的PSI,一个是模型分数的PSI,上图示例1-3展示的是模型分数的PSI。

一次模型的迭代更新,在部署时往往会耗费大量的时间。为了避免经常性迭代模型,在建模的时候就必须保证模型的稳定性。因此在建模过程中,常常会按时间段切分样本并计算各个变量的PSI(或建模样本与时段外验证集之间的PSI),以筛除那些随时间推移波动特别大的变量。

除此之外,在对模型进行监控时,对稳定性的监控也是必不可少的,需要及时监控是否有客群发生偏移的情况,找到发生偏移的原因并确定是否需要调整模型或者策略。

首先需要监控的是不同时间区间内模型分数的稳定性,如果发现模型总分的PSI较高,则需要通过计算每个入模变量的PSI来寻找原因,发现是哪一个变量导致的分数不稳定后,则需要根据这个变量的特征来调整策略,或如果认为这种波动性会持续下去的话,需要考虑是否将这个变量剔除在模型之外。

3PSI在风控策略中的应用

PSI作为稳定性度量指标,不仅可以运用于评分模型中,仍然可以风控策略中发挥作用。

在策略A类和D类调优中,我们往往通过观测不同时间节点或时间跨度内规则节点的波动差,来确定主要引起通过率下降和逾期率上升的一个或多个核心规则,进一步确认策略调优阈值方案。

波动差与之对应的即是稳定度,波动越大,PSI越大,表示规则影响风险往不稳定方向发生。所以,仍可以运用PSI判断节点主次要拒绝影响。

上图示例4中运用PSI=(B-A)*LN(B/A)测算波动差,A节点的PSI为0.77%,B节点的PSI为0.01%,最终可确定A节点是导致通过率下降的核心策略节点。

尾叙

不论是GINI、PSI、IV,还是其他具有特殊意义的风控指标,我们只有在理解其基础计算逻辑和业务意义后,才能创造性地赋予其更多的功能,更好的帮助我们做好量化风险管理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值