auc到多少有意义_信贷风控中AUC/KS的理解

最新推荐文章于 2024-02-08 16:44:46 发布

菩提自性

最新推荐文章于 2024-02-08 16:44:46 发布

阅读量1.5k

点赞数 1

文章标签： auc到多少有意义

本文链接：https://blog.csdn.net/weixin_42552410/article/details/112410785

版权

本文深入探讨了AUC/KS在信贷风控中的作用，解释了它们的定义、互相决定关系以及样本逾期率和样本量对其计算的影响。AUC和KS分别从期望和极值角度衡量好坏样本信用分数分布的距离，样本逾期率不影响AUC/KS的计算，而样本量过小会导致抽样误差，影响准确性。

摘要由CSDN通过智能技术生成

作为风控从业人员，你真的足够了解AUC/KS吗？

AUC/KS是信贷领域使用极其高频的指标，常被用来评估二分类模型、分数类数据产品的区分能力。但在实际的业务中，发现很多业务人员甚至建模专家在使用AUC/KS时，仅仅关注AUC/KS值的大小而忽略例如样本逾期率、样本量等重要细节。

本文将用‘硬核’的方式（理论推导与数值模拟）带您重新认识这两个明星指标，试图回答清楚如下三个问题：

AUC 与KS有互相决定关系吗？
样本逾期率是否会影响 AUC/KS 大小？
样本量是否会影响 AUC/KS 大小？

目录
Part1: AUC/KS 定义（计算方式 + 几何含义 + 业务含义）
Part2: AUC/KS 的互相决定关系（结论 + 推导过程）
Part3: 样本逾期率对 AUC/KS 计算的影响
Part4: 样本量对 AUC/KS 计算的影响
Part5: 总结
致谢
版权声明

Part1: AUC/KS定义

在介绍AUC/KS的定义之前，我们先介绍一些基础的概念。

定义一：混淆矩阵（confusion matrix）

对于二分类问题（例如风控中的是否逾期、营销中的是否响应等），结果总是可以归为如下四类：

上面这个表格我们一般称为‘混淆矩阵’，但绝对数量一般说明不了问题，实际中我们更加关注比率。

定义二：真阳率（tpr）与假阳率（fpr）

用一个具体的例子来介绍上述两个概念。假设我们一共有200个申请用户，好坏各100个。现在有一款分数类产品给每一个用户都打了一个0-100的信用评分。如果我们将信用分数大于80分就判定为“好人”否则为”坏人“。我们得到了如下的混淆矩阵：

套用公式我们计算出TPR = 90%与FPR = 30%。

Ps：什么情况下tpr与fpr会达到最大与最小？
如果好坏样本差别很大（例如真实的好人都是80分以上，坏人都是60分以下），而且我们的这个划分规则也选的够好（例如选在了60-80之间），那我们的判定就能完全正确，TP与TN恰好等于100，而FN与FP都等于0。但实际当中，好坏样本往往并不能被完全分开，真实的好人可能信用分数也只有50分，信用分数达到90分的用户可能最后还是逾期了。

定义三：ROC曲线

我们一开始就说了”AUC/KS常被用来评估二分类模型、分数类数据产品的区分度“，现在似乎通过TPR与FPR我们也能判断这款信用分数是一个款不错的分数，但到底有多‘不错’呢？换个切分点TPR会不会更高，FPR会不会更低呢？

为了给这个模型/分数一个更加公正的评价，我们会尝试所有的划分节点。我们会得到一连串的划分点、TPR、FPR的组合：

信用分数大于1判定为好人，tpr = 100%，fpr = 100%

信用分数大于2判定为好人，tpr = 100%，fpr = 100%

...

信用分数大于99判定为好人，tpr = 0% ， fpr = 0%

图1-好坏样本分布示意图

用一个示意图来体现信贷场景下上述不断调整信用分划分节点的过程。图中，我们用左边（紫色）的正态分布代表“坏用户”的信用分分布，用右边（红色）的正态分布代表“好用户”的信用分数分布情况，中间的黑线代表信用分的切分点，黑线右边我们都认为是“好用户”，黑线左边都认为是“坏用户”。随着黑线从左到右不断移动，tpr与fpr也随着不断变化。

每一个划分节点下都会有一组tpr与fpr，我们用图像把这些结果做一个可视化。我们以fpr 为横坐标，tpr为纵坐标，把所有划分点下的结果画在一张图上。我们称这条曲线为ROC曲线（图中黄色曲线）。

图2-ROC曲线

ROC图十分有趣，ROC曲线上每一个点都对应一种信用分数的划分方式，点的横坐标为对应划分方式下的fpr，纵坐标为tpr。AUC/KS的几何意义、业务意义都可以从这张图中得到，甚至还可以用来估计模型AUC提升对客群逾期率的降低程度，这个以后有机会再讲。

AUC/KS的几何含义 :

AUC（area under curve）就是ROC曲线与x轴围住的面积大小，即图2中黄色曲线下方的面积。
KS （Kolmogorov-Smirnov）就是ROC曲线的斜率为1的切线的截距，即图2中红色字体标注部分。

AUC/KS的业务意义：

AUC可以有两个说法，但其实是同一个含义：

AUC是‘ 所有划分情况下tpr与fpr差值的平均值再加上0.5’
AUC是“这个信用分数把一个随机给定‘好人’排在一个随机给定的‘坏人’前面的概率”

KS的业务意义更加直接一些，KS就是所有划分情况下tpr与fpr的最大差值。

其实，了解auc与ks的定义之后再回顾图一，可以发现auc与ks分别从‘期望’与‘极值’的角度刻画好坏样本信用分数分布的距离。如果在一个模型或着分数能够让好坏样本的分布距离越远、分布越开，那个这个模型/分数对应的的AUC与KS就越大。

Part2：AUC/KS 的互相决定关系

AUC/KS 有理论上的互相决定关系吗？

有。

AUC与KS可以互相决定上下限，具体结论如下：

在实际应用当中，我们可以近似地使用如下的公式：

Ps：具体的推导过程如下：
ks的几何意义是roc曲线的斜率为1的切分在y轴上的截距（如图中红色字体标注部分所示），所以如果给定ks的截距，那么最小的auc对应的就是三角形OAD的面积（图中蓝色部分） + 0.5，最大的auc对应的就是梯形OACD的面积（图中蓝色及米黄色部分）+ 0.5。经过简单的计算，可以得到严格版公式。利用泰勒公式经过简单的处理，就可以得到近似版公式。

图3-ROC曲线（for公式推导）

Part3：样本逾期率对 AUC/KS 计算的影响

样本逾期率是否会影响AUC/KS的计算？这个可能是很多人都有的一个疑惑。可能很多人都有如下的经验总结或者印象：

样本的逾期越低得到模型的auc/ks就越高
用于测试数据的测试样本逾期率不应该太高也不应该太低，最好介于10%到20%（要是哪家公司用50%逾期率的样本做数据测试肯定要被很多人笑话）

那这些经验总结对不对呢？样本逾期率是否会影响auc/ks大小，如果是，又如何影响呢？

为了避免歧义，我们将区分两个情景，并给出相应的结论

情景一：用AUC/KS评估结果，不涉及建模过程

从总体中抽取部分样本用AUC/KS评估分数类数据产品/模型概率/模型打分的区分能力。现实中常见的情景是，发送一个测试样本让对方进行回溯，然后计算AUC/KS。

在这种情况下，如果忽略缺失、抽样误差的情况下，测试样本的逾期率对于计算分数类数据产品的AUC/KS是没有影响的。

我们从理论与数据模拟两个角度说明如下：
理论角度：
回顾auc/ks的定义过程，两者都是基于tpr、fpr得到，这两者都不会被好坏样本的相对数量所影响。假设下图的左上角分别用紫色和红色标注所有好坏样本分数的真实分布，不同的逾期率意味着我们从两个分布中抽出不同数量的样本构成测试样本，但只要保证是随机抽样（能够忽略抽样误差），那么在测试样本中，好坏用户的分布依然图中一致。那么不同逾期率的测试样本，在同一个划分节点下，虽然tp，fp，fn，tn的绝对数量发生了变化，但tpr与fpr是一致的，auc/ks也是一致的。

图4-逾期率对auc/ks计算大小的影响

数据模拟：
我们在一个大样本集中抽取不同比例的好坏样本构成测试样本，我们不断地调整抽取的好坏样本比例来控制测试样本的逾期率的变化，但保证测试样本的总样本量始终是1w。然后在同一个模型分上计算在不同的测试样本中auc/ks的大小。为了减小与刻画抽样误差，我们每种逾期率下的都重复100次，然后计算平均的auc/ks以及对应的标准差。结果如下：

图5-模拟结果：不同逾期率对auc/ks计算的影响

从模拟结果中可以看到，在重复次数够多（100次）的情况下，不同逾期率的测试样本下计算的auc/ks均值基本一致，差异主要体现在auc/ks的标准差上。所以不同逾期率的测试样本auc/ks的大小差异来自于抽样误差。令人意外的部分来了，当测试样本的逾期率较高（好坏样本抽取样本数都较大）时，抽样带来的误差反而最小。所以以后请不要笑话那些使用50%逾期率测试样本的客户了。

情景二，基于不同逾期率的样本建模，然后用AUC/KS评估模型的区分能力。

这几乎是所有风控建模人员都在做的事情，在这种情景下，我们实际在讨论“好坏样本占比对建模效果的影响”。结论是不确定有没有影响，如何影响。实际情况来看，不同的数据情况下结论也会有所差异，这个话题可以之后有机会再单独拿出来说。

Part4：样本量对 AUC/KS 计算的影响

样本量会影响AUC/KS的计算吗？先说结论：会。样本量过小会导致抽样误差过大而影响auc/ks的计算，但只要好坏样本的绝对数量都大于1000，抽样误差对auc/ks的影响就很小。所以测试分数产品的时候，样本量不需要太多啦

通过Part3的分析我们已经知道数据测试时，如果忽略抽样误差，测试样本的逾期率对auc/ks是没有影响的，真正影响auc/ks的是测试样本中好坏样本的分布与总体分布的一致程度。所以，如果随机从总体中抽取好坏样本，我们其实是在讨论需要多少的样本量才能够有效地控制抽样误差。

我们通过数据模拟的方式来说明：
我们控制测试样本的逾期率，针对同一款信用分，我们不断地调整测试样本的样本量，然后计算在不同的测试样本中auc/ks的大小。为了减小与刻画抽样误差，每种情况下，重复抽样100次计算平均的auc/ks以及对应的标准差。结果如下图。可以发现，当好坏样本的绝对数量高于1000时，抽样误差对auc/ks带来的扰动已经很小了。