AUC含义的通俗理解

AUC含义的通俗理解

假设有一个分类器,并且该分类器可以得到将一个样本预测为正的概率,并将此概率称为这个样本的得分
首先说一下AUC的含义:随机给定一个正样本和一个负样本,用一个分类器进行分类和预测,该正样本的得分该负样本的得分要大的概率
那么应该如何理解这个含义呢?首先我们要知道ROC曲线是怎么画出来的。而AUC即ROC曲线下面的面积。

1. 混淆矩阵

在这里插入图片描述
(图源:https://www.zhihu.com/question/39840928)
从这个矩阵中我们引入了真阳率(True Positive Rate, TPR)以及假阳率(False Positive Rate, FPR)的概念:
T P R = T P T P + F N TPR=\frac{TP}{TP + FN} TPR=TP+FNTP
F P R = F P F P + T N FPR=\frac{FP}{FP + TN} FPR=FP+TNFP
仔细看这两个公式,发现其实TPR就是TP除以TP所在的列,FPR就是FP除以FP所在的列,二者意义如下:

  • TPR的意义是所有真实类别为1的样本中,预测类别为1的比例。
  • FPR的意义是所有真实类别为0的样本中,预测类别为1的比例。

2. ROC曲线的绘制

假设我们有如下几个数据,其中p表示真实的正样本,n表示真实的负样本,得分为某一分类器将此样本预测为正样本的概率。我们将其按照得分由大到小排序,并将正负样本按照得分从小到大分别编号。
在这里插入图片描述
我们还需要一个概念:阈值。我们设定这个阈值,并将得分小于等于这个阈值的所有样本预测为负,大于这个阈值的样本预测为正。
在这里插入图片描述
我们建立TPR和FPR的坐标。最开始,我们令这个阈值为0,则所有的样本都被预测为正,此时TPR和FPR都是1,则我们在图像上(1,1)这个地方描一个点。之后,我们按照所有样本的得分从小到大依次将其设置为阈值,即下一次阈值设置为0.2,此时只有样本n1被预测为负,其他样本均被预测为正,此时的TPR还是1,而FPR则变为了0.75,我们在(0.75,1)的地方描一个点。下一次阈值设置为0.35,此时样本p1和n1被预测为负,其余样本被预测为正,此时TPR变为0.8,FPR仍为0.75,我们在(0.75,0.8)的地方描一个点。以此类推,直到最后将所有样本都预测为负,画出ROC曲线。

3. AUC含义的理解

注:下面的说明不是严格的证明,只是帮助通俗理解。
那么,应该怎么将AUC的值与概率联系起来呢?首先,我们知道整个区域的面积是1。假设正样本的数量为 M M M,负样本数量为 N N N,并且在改变阈值的过程中,每当一个样本从被预测为正,变为被预测为负,则:

  • 若此样本为正样本,则TPR将减小 1 M \frac{1}{M} M1
  • 若此样本为负样本,则FPR将减小 1 N \frac{1}{N} N1

由于每让一个样本的预测结果发生变化,都画出了一条线段,因此让每个样本对应一条线段,负样本对应上方水平的线段,正样本对应右侧垂直的线段。于是可以将整个区域划分为 M × N M\times N M×N个小区域,每个区域可以由一条垂直的线段和一条水平的线段通过平移组成,那么这个区域就可以代表这两条线段对应的一个正样本和一个负样本组成的样本对,如下图。
在这里插入图片描述
那么我们来理解一下图中黄色区域代表什么?这个黄色部分代表的其实是所有得分比n2的得分高的正样本与n2组成的样本对。也就是说黄色的部分由4个小块组成,每个小块是一个样本对,在这个样本对中,正样本的得分比负样本得分高。
所以,我们可以得到结论,ROC曲线下面的所有小块代表的样本对都是正样本得分比负样本得分高的样本对。而我们也可以证明ROC上面的所有小块代表的样本对都是正样本得分比负样本得分低的样本对。
现在,你能否理解AUC的含义了呢:随机给定一个正样本和一个负样本,用一个分类器进行分类和预测,该正样本的得分比该负样本的得分要大的概率
而根据这一含义,我们也可以确定,AUC越大(越接近1),模型的分类效果越好。

另外,在知乎上看到了另一条比较好的回答,也在此记录一下:
对于二类分类问题,我们先画roc曲线,曲线的每一个点表示一个阈值,分类器给每个样本一个得分,得分大于阈值的我们认为是正样本,小于阈值的认为是负样本。那么纵坐标是正样本的召回率,横坐标是1-负样本的召回率。从原点开始画roc曲线,阈值从1开始递减,随着阈值的降低,正样本的召回率肯定是在增加的,而负样本的召回率在降低。如果正样本的召回率增加的速度大于负样本的召回率的下降,说明我们的分类器效果是不错的。roc曲线下面的面积就是auc。

作者:sean
链接:https://www.zhihu.com/question/39840928/answer/122890730
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

  • 15
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: AUC(Area Under the Curve)是一种常用的模型性能指标,常用于二分类模型中,例如深度学习模型。 在深度学习中,AUC表示分类模型对正负样本分类的准确度,其值介于0到1之间,越接近1表示模型的分类效果越好,越接近0.5表示模型分类效果与随机猜测无异,而值越接近0表示模型分类效果越差。 AUC的计算方法是通过计算ROC曲线(Receiver Operating Characteristic Curve)下的面积来得到的。ROC曲线是以真正例率(True Positive Rate, TPR)为纵坐标,假正例率(False Positive Rate, FPR)为横坐标的图形,其刻画了在不同的分类阈值下,模型对正负样本的分类效果。而AUC则是ROC曲线下的面积,可以表示为一个分类器区分正例和负例的能力。 ### 回答2: AUC是Area Under the Curve的缩写,即曲线面积。在深度学习中,AUC被广泛应用于评估分类模型的性能。 AUC常用于二分类任务中,通过绘制Receiver Operating Characteristic (ROC)曲线,计算曲线下的面积来衡量分类模型的准确性。ROC曲线的横坐标是1-Specificity(False Positive Rate),纵坐标是Sensitivity(True Positive Rate),它们是模型在不同阈值下的表现。 AUC反映了模型将正样本排在负样本之前的能力,即分类器将正例置于负例前面的概率。AUC的取值范围在0.5到1之间,值越接近1,表示模型分类能力越好。 AUC在深度学习中有着重要的意义。通过计算AUC,我们可以客观地评估模型在不同阈值下的分类性能,而不受阈值选择的影响。它对非平衡数据集的处理更加合理,适用于具有不同类别权值的任务,如医学诊断或金融欺诈检测。 此外,AUC还有助于选择最佳模型。当比较多个模型时,AUC提供了一个统一的指标,方便模型之间的比较和选择最佳模型。 总而言之,AUC在深度学习中表示分类模型的准确性和排名能力。它是一个重要的评估指标,可用于评估模型性能、处理非平衡数据集和选择最佳模型。 ### 回答3: AUC(区分度)是深度学习中评估二分类问题性能的一种常用指标,其全称为“Area Under the ROC Curve”。ROC(受试者工作特征)曲线描绘了在不同分类阈值下,模型的真阳性率(tpr)与假阳性率(fpr)之间的关系。AUC表示ROC曲线下的面积,范围在0到1之间。在深度学习中,AUC可以被视为评估分类器在不同阈值下的不确定性能。 AUC在深度学习中的含义主要有以下几个方面: 1. AUC提供了一个通过综合考虑不同阈值下模型的表现来评估模型性能的指标。由于深度学习模型具有高度非线性和复杂性,单一的分类阈值评估往往无法准确地衡量模型的整体性能。AUC能够在漏检和误检之间进行平衡。 2. AUC对于不平衡数据集的评估更为合适。在深度学习中,由于少数类样本数量较少,数据集往往呈现不平衡分布。使用准确率等评价指标可能会被主导于多数类,而忽略了对少数类的关注。而AUC基于不同阈值下的性能表现评估,能够更好地处理不平衡数据集,提供更全面的模型评估。 3. 模型在不同子集上的性能差异也可以通过AUC来评估。在深度学习中,由于数据集样本的多样性和复杂性,模型的性能可能会因不同的数据子集而有所差异。通过计算AUC可以获得模型在不同数据子集上的稳定性评估,并提供更细致的模型表现。 总而言之,AUC在深度学习中提供了一种全面、平衡、适应不平衡数据集以及考虑数据子集性能差异的模型性能评估方法。通过分析AUC,可以更好地了解和优化深度学习模型的分类能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值