作为风控从业人员,你真的足够了解AUC/KS吗?
AUC/KS是信贷领域使用极其高频的指标,常被用来评估二分类模型、分数类数据产品的区分能力。但在实际的业务中,发现很多业务人员甚至建模专家在使用AUC/KS时,仅仅关注AUC/KS值的大小而忽略例如样本逾期率、样本量等重要细节。
本文将用“硬核”的方式(理论推导与数值模拟)带你重新认识这两个明星指标,试图回答清楚如下三个问题:
AUC 与KS有互相决定关系吗?
样本逾期率是否会影响 AUC/KS 大小?
样本量是否会影响 AUC/KS 大小?
1
Part1:AUC/KS定义
在介绍AUC/KS的定义之前,我们先介绍一些基础的概念。
定义一:混淆矩阵(confusion matrix)
对于二分类问题(例如风控中的是否逾期、营销中的是否响应等),结果总是可以归为如下四类:
上面这个表格我们一般称为‘混淆矩阵’,但绝对数量一般说明不了问题,实际中我们更加关注比率。
定义二:真阳率(tpr)与假阳率(fpr)
用一个具体的例子来介绍上述两个概念。假设我们一共有200个申请用户,好坏各100个。现在有一款分数类产品给每一个用户都打了一个0-100的信用评分。如果我们将信用分数大于80分就判定为“好人”否则为”坏人“。我们得到了如下的混淆矩阵:
套用公式我们计算出TPR = 90%与FPR = 30%。
Ps:什么情况下tpr与fpr会达到最大与最小?
如果好坏样本差别很大(例如真实的好人都是80分以上,坏人都是60分以下),而且我们的这个划分规则也选的够好(例如选在了60-80之间),那我们的判定就能完全正确,TP与TN恰好等于100,