kmeans及模型评估指标_风控模型评估指标介绍(KS、AUC & Gini)

本文介绍了信贷风控模型后端分析中的Ranking和Accuracy评估指标,包括Bad Rate、Odds、Lift、AUC、Gini Coefficient和KS(Kolmogorov-Smirnov)。Ranking侧重模型排序能力,Accuracy关注模型区分好坏样本的能力。这些指标在模型监控和优化中起到关键作用。
摘要由CSDN通过智能技术生成

be18323ebf2e4476da6c6815bd68a20c.png

业务背景

模型监控专题的业务背景和大纲梳理可以参见

过一点画一条直线:风控模型监控指标汇总​zhuanlan.zhihu.com
da5389db03a07a071bdc0ba399702a55.png

评分卡模型监控主要可以分为前端分析(Front-End)和后端分析(Back-End),其中前端分析主要关注人群的稳定性,后端分析主要关注模型的影响和表现。在

过一点画一条直线:金融风控稳定性指标 PSI & CSI​zhuanlan.zhihu.com
573fecd89d6b845ee9074d0092f30a71.png

里已经对前端分析中的Population Stability Index (PSI)Characteristic Stability Index (CSI)进行了介绍,在

过一点画一条直线:金融风控中的Vintage和滚动率介绍​zhuanlan.zhihu.com
2117f7d142c25ad208b5d7082d4ea367.png

里已经对后端分析中的Vintage AnalysisPortfolio Analysis进行了介绍,本文继续介绍后端分析中的Ranking & Accuracy

后端分析 --- 衡量评分卡对当前样本的预测能力(需等到当前样本进入表现期),并与开发样本上的表现进行对比。本文主要介绍以下评估指标:
1. Ranking:评估模型的排序能力
2. Accuracy:量化模型的强度,评估模型的区分度

目录
Part 1. Ranking
1. Bad Rate
2. Odds
3. Lift
Part 2. Accuracy
1. AUC
2. Gini Coefficient
3. KS
Part 3. 总结
版权声明
参考资料

后端分析

后端分析主要是对模型表现进行监控,观察资产的变化情况。这里主要介绍Ranking和Accuracy。

Part 1. Ranking

Ranking 指排序性,常用来反映模型的排序能力。在信贷风控业务中,我们往往需要模型具有良好的排序性,例如对于信用评分模型,我们希望按照模型分数对人群进行划分后,分数高的人群的风险低于分数低的人群。Bad RateOddsLift等指标常用来衡量模型的排序能力。

Bad Rate:坏样本率,分档内坏样本数 / 分档内全部样本数 Odds:好坏样本比,分档内坏样本数 / 分档内好样本数 Lift:提升度,分档内 Bad Rate / 整体样本 Bad Rate

1. Bad Rate

通过Bad Rate,我们常用来监控模型在某个时间段的排序能力变化以及在不同月份中排序性拟合度变化。下面以图1为例,进行说明:

72a57b8fe6de601a7a870e45043e2e9a.png
图1. Bad Rate 示例图
某个时间段的排序能力变化:从图1中黄色曲线,我们可以看到201804月样本Bad Rate的变化,其整体是保序的,即分数高的样本Bad Rate较低。 在不同月份中排序性拟合度变化:同时对比图中6条曲线,我们可以观察这半年内不同月份在相同分数区间内Bad Rate变化。从图中可知,当分数较高时,各个月份的Bad Rate相近,拟合度较好。当分数较低时,各个月份的Bad Rate变化较大。理论上,我们希望得到模型在不同月份的各个分档内的Bad Rate拟合度较好,显然上图并不满足。这时候,我们需要结合各个月份在各个分档申贷样本上的拒绝率来看。即,某个月份在某个分档内的Bad Rate升高或降低可能是由于该月份在该分档内的拒绝率发生的变化,这种变化可能是客群或者策略等发生变化造成的。

2. Odds

Odds常用来监控不同月份在相同分档内的好坏样本比变化,如图2所示。

00af127f19e58e15917a6e09cfd4bf59.png
图2. Odds 示例图

3. Lift

Lift用来监控各个分档内Bad Rate的提升度,衡量分数较低区间内样本的坏样本率与整体坏样本率的比值,该指标常用于衡量模型在头部(分数较低)样本的区分度。下面以图3为例,进行说明:

13e0f55d34f5955266266b97ed680407.png
图3. LIft 示例图

对于反欺诈模型来说,头部LIft通常是评估模型的一个重要指标,当模型头部Lift满足相应要求后,会直接拒绝该分数段的样本。从201806月份开始,第一档的Lift为0,可能是模型上线后,该分数段的样本全部被拒绝了。

Part 2. Accuracy

Accuracy 指正确率,反映模型对好坏样本的区分能力。在信贷风控中,坏样本分数分布和好样本分布之间的区别越大,则模型对好坏样本的区分能力越强。AUCGiniKS等指标常用来衡量模型的区分能力。

1. AUC

在介绍AUC(Area Under Curve)前,我们先来介绍一下混淆矩阵(Confusion Matrix)和ROC曲线,下图4即为混淆矩阵:

93983657c120d37bd69404033ed61500.png
图4. 混淆矩阵
TP:模型判定为P,实际上也是P,即判断正确
FP:模型判定为P,实际上却是N,即判断错误
FN:模型判定为N,实际上却是P,即判断错误
TN:模型判定为N,实际上也是N,即判断正确

假阳性率(False Positive Rate):在所有的负样本中,分类器预测错误(把负样本预测为正样本)的比例,即:

真阳性率(True Positive Rate):在所有的正样本中,分类器预测正确的比例(等于Recall):

ROC曲线为FPR与TPR之间的关系曲线,其中x轴为FPR,y轴为TPR。这个组合以 FPR 对 TPR,即是以代价 (costs)对收益(benefits),显然收益越高,代价越低,模型的性能就越好。

通过改变不同的阈值1.0→0,得到一系列的混淆矩阵,进而得到一系列的TPR和FPR,绘制出ROC曲线,具体计算过程可参考图5。

c89b672c38fc682333ae89d57e964595.png
图5. ROC曲线

AUC 值为 ROC 曲线与坐标轴围成的区域面积。显然,AUC越大,则模型分类效果越好。其取值说明如下:

1. AUC = 1,是完美分类器。
2. 0.5 < AUC < 1,优于随机猜测。有预测价值。
3. AUC = 0.5,跟随机猜测一样(例:丢铜板),没有预测价值。
4. AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测(出现这种情况一般性是Target定义反了)。

AUC反映的是分类器对样本的排序能力,从物理意义上来说,AUC反映的是正样本的预测结果大于负样本预测结果的概率。

1. AUC关注的是概率值的相对大小,即其排序关系,与阈值和概率值的绝对大小没有关系。
2. AUC只关注正负样本之间的排序,并不关心正样本内部,或者负样本内部的排序。
3. AUC对样本类别是否均衡并不敏感,这也是不均衡样本通常用AUC评价分类器性能的一个原因。

AUC的计算方法有如下几种:

方法1:AUC 为 ROC 曲线下的面积,那我们直接计算面积可得。面积为一个个小的梯形面积(曲线)之和。计算的精度与阈值的精度有关。 方法2:根据 AUC 的物理意义,我们计算正样本预测结果大于负样本预测结果的概率。取
个二元组,比较score,最后得到AUC。时间复杂度为 O(NM)。
方法3:首先把所有样本按照 score 排序,依次用 rank 表示他们,如最大 score 的样本,
,其中
为负样本个数,
为正样本个数)。最后我们得到正样本大于负样本的概率为:
。计算复杂度为O(N+M)。

2. Gini Coefficient

Gini通常用来评估评分卡模型能在多大程度上区分好坏,在介绍Gini系数前,我们先介绍一下洛伦兹曲线( Lorenz Curve )以及它在信贷风控中的定义。洛伦兹曲线最先用来描述社会收入不均衡的现象。将人们的收入数据升序排序后,分别以人口的累计比例和累计收入作为横纵坐标轴绘制曲线,如图6所示:

df9de11388c1063297a73652af7678cd.png
图6. 洛伦兹曲线

对角线代表完全均衡,弓形曲线与对角线之间的之间的面积代表收入不均衡的程度(如果收入升序排列,则图像反转)。

迁移到风控领域中,则纵坐标表示的是累计坏样本占比,横坐标表示累计样本占比。假设基于某个累计阈值点的样本预测为坏样本,此时预测正确的样本数为TP,预测错误的样本数为FP,样本总数为TP+FP,则:

累计坏样本占比=TP/(TP+FN)
累计样本占比 = (TP+FP)/(TP+FP+TN+FN)

累计坏样本占比也就是TPR。当负样本很少时,TP和FN的值很小,可忽略不计,则累计样本占比 = FP/(FP+TN),为FPR,此时洛伦兹曲线和ROC曲线的横纵坐标取值基本一致。

[The Credit Scoring Toolkit Theory and Practice for Retail Credit Risk Management and Decision Automation] 一书中,将洛伦兹曲线的横坐标表示成累计好样本占比,如下图7所示:

30f5db54519d9bbb84dd89e9d73d1383.png
图7. 洛伦兹曲线2

累计好样本占比 = FP/(TN+FP),即为FPR,此时洛伦兹曲线的横纵坐标和ROC曲线的横纵坐标一致,两天曲线重合。

介绍完洛伦兹曲线,我们来介绍Gini系数。以图6为例,Gini系数是指绝对公平线(line of equality)和洛伦茨曲线(Lorenz Curve)围成的面积与绝对公平线以下面积的比例,即:

Gini系数= 面积A/(面积A+面积B) = 2倍的面积A

当洛伦兹曲线和ROC曲线基本一致或者完全一致时,此时 AUC = 面积A+0.5,因此可得

Gini系数 = 2AUC - 1

3. KS(Kolmogorov-Smirnov)

KS统计量是信用评分和其他很多学科中常见的统计量,在金融风控领域中,常用于衡量模型对正负样本的区分度。通常来说,值越大,模型区分正负样本的能力越强,一般0.3以上,说明模型的效果比较好(申请评分卡)。其定义如下:

0f1091a8e02cc4887eeebf16044cc3b3.png
图8. KS曲线

看到累计坏人占比累计好人占比,是不是就想到了TPRFPR,结合图8,我们对KS进行介绍。与ROC曲线相似,ROC是以FPR作为横坐标,TPR作为纵坐标,通过改变不同阈值,从而得到ROC曲线。而在KS曲线中,则是以阈值作为横坐标,以FPR和TPR作为纵坐标,KS曲线则为TPR-FPR,KS曲线的最大值通常为KS值。

当阈值减小时,TPR和FPR会同时减小,当阈值增大时,TPR和FPR会同时增大。而在实际工作中,我们希望TPR更大一些,FPR更小一些,即TPR-FPR越大越好。

fb255eb7e790722cb4b18372a836ecda.png
图9. KS with ROC

结合图9,下面我们聊聊KS和ROC的关系。从上面的分析可知KS=max(TPR-FPR),因此当KS最大的时候,TPR和FPR之间的差值最大。图9中的红线为ROC曲线,该曲线横轴坐标分别为FPR和TPR,图中黑线为y=x,图中蓝线为y=x的平行线与ROC曲线的相交线,相交于A点。根据斜率变化可知,当斜率k=1是,x与y值增速相等。因此,在A点时,TPR-FPR取得最大值,对应于图上则有:

TPR = OC = AB FPR = OB = AC = BE = CD KS = TPR - FPR = AB - OB = AB - BE = AE = OD,即为蓝色曲线的与Y轴的截距

Part 3. 总结

在模型的监控过程中,模型的排序能力和正确率监控往往至关重要。针对排序能力,主要关注的是模型对不同分数段的识别度,关注样本间的排序能力。对于准确率来说,主要体现了模型对于好坏样本之间的区分度,并不关注好样本内或坏样本内的排序性。这些监控指标通常是结合起来一起使用,单独使用某个指标会存在一定的局限性。

(注:文中数据均非真实数据,而是为了说明问题而生成的数据)


版权声明

欢迎转载分享请在文章中注明作者和原文链接,商业转载请联系作者获得授权,非商业转载请注明出处。

原文作者:过一点画一条直线(知乎ID)
知乎专栏:数据化风控
原文链接: https:// zhuanlan.zhihu.com/p/98 806525

参考资料

[1] Credit Risk Scorecard Monitoring

[2] The Credit Scoring Toolkit Theory and Practice for Retail Credit Risk Management and Decision Automation

关于作者

本人就职于某金融科技公司从事风控建模、数据挖掘相关工作,欢迎互相交流,共同成长。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值