机器学习评价指标AUC计算公式

最新推荐文章于 2024-08-23 00:53:11 发布

道墟散人

最新推荐文章于 2024-08-23 00:53:11 发布

阅读量3.9k

点赞数 1

分类专栏： machine learning 文章标签：机器学习

原文链接：https://blog.csdn.net/qq_22238533/article/details/78666436

版权

machine learning 专栏收录该内容

36 篇文章 1 订阅

订阅专栏

1.什么是AUC？

AUC（are under curve)是一个模型的评价指标，用于分类任务。
那么这个指标代表什么呢？这个指标想表达的含义，简单来说其实就是随机抽出一对样本（一个正样本，一个负样本），然后用训练得到的分类器来对这两个样本进行预测，预测得到正样本的概率大于负样本概率的概率。
在这里插入图片描述

2.如何计算AUC？

方法一

在有M个正样本,N个负样本的数据集里。一共有MN对样本（一对样本即，一个正样本与一个负样本）。统计这MN对样本里，正样本的预测概率大于负样本的预测概率的个数。
在这里插入图片描述

这里第一个条件应该为P(正样本)>P(负样本)。
举例：

假设有4条样本。2个正样本，2个负样本，那么M*N=4。即总共有4个样本对。分别是：
（D,B）,（D,A）,(C,B),（C,A）。
在（D,B）样本对中，正样本D预测的概率大于负样本B预测的概率（也就是D的得分比B高），记为1
同理，对于（C,B）。正样本C预测的概率小于负样本C预测的概率，记为0.
最后可以算得，总共有3个符合正样本得分高于负样本得分，故最后的AUC为 $\frac{1+1+1+0}{4}=0.75$ 。
在这个案例里，没有出现得分一致的情况，假如出现得分一致的时候，例如：
在这里插入图片描述
同样本是4个样本对，对于样本对（C,B）其I值为0.5。最后的AUC为 $\frac{1+1+1+0.5}{4}=0.875$ 。

方法二

在这里插入图片描述
这个公式看起来有点吓人，其实就是先对预测概率进行排序，然后对正样本的序号相加，减去后面的常数项，最后除以M*N。
$rank_{ins_i}$ ：代表第i条样本的序号。（概率得分从小到大排，排在第rank个位置）。
$\sum$ 代表对属于正样本的序号加和。

同样的，我们用上面的例子。
在这里插入图片描述
将这个例子排序。按概率排序后得到：

按照上面的公式，只把正样本的序号加起来也就是只把样本C,D的rank值加起来后减去一个常数项 $\frac{M(M+1)}{2}$ ，即 $\frac{(4+2)-\frac{2*(2+1)}{2}}{2*2}=\frac{6-3}{4}0.75$ 。这个答案和我们上面所计算的是一样的。

这个时候，我们有个问题，假如出现得分一致的情况怎么办？下面举一个例子说明：
在这里插入图片描述
在这个例子中，我们有4个取值概率为0.5，而且既有正样本也有负样本的情况。计算的时候，其实原则就是相等得分的rank取平均值。具体来说如下：
先排序：

这里需要注意的是：相等概率得分的样本，无论正负，谁在前，谁在后无所谓。
由于只考虑正样本的rank值：
对于正样本A，其rank值为7
对于正样本B，其rank值为6
对于正样本E，其rank值为（5+4+3+2）/4
对于正样本F，其rank值为（5+4+3+2）/4
最后我们得到：
在这里插入图片描述