AUC直观理解

AUC理解

1. AUC 是什么?

相信这个问题很多玩家都已经明白了,简单的概括一下,AUC(are under curve)是一个模型的评价指标,用于分类任务。那么这个指标代表什么呢?这个指标想表达的含义,简单来说其实就是随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。
在这里插入图片描述

具体参考AUC计算方式和例子

2. 如何计算AUC

最简单的方法直接统计样本对(positive,negative),计算出出正样本得分大于负样本的个数;
在有M个正样本,N个负样本的数据集里。一共有MN对样本(一对样本即,一个正样本与一个负样本)。统计这MN对样本里,正样本的预测概率大于负样本的预测概率的个数。
在这里插入图片描述
第二种方法,公式法,非常常用,但是解释的人不多。这里着重解释一下:
在这里插入图片描述

具体分析如下:
从小到大排序后,第一个正样本的位置(序号,序号从0开始),就是其比负样本得分大的个数;对于第二个正样本,前面有已经1个正样本了,所以负样本个数为位置减去1,同理,第三个正样本前面的负样本个数为位置减去2,……,对于第M个正样本,匹配的负样本个数为位置序号减去M-1。 故而,分子就变成 所有正样本的位置序号和,减去(0+1+2+……+M-1)=sum()-M*(M-1)/2. 若序号从1开始,则,=sum()-M -(0+1+2+……+M-1)=sum()-M(M+1)/2.

3. ROC曲线的简单画法

类似的思想, Y轴对应正样本,X轴对应负样本。则,Y轴被M个正样本平分为M份,X轴被N个负样本平分成N份。
现在将得到的M+N个样本得分从大到小排序;
然后,依次读取这M+N样本,从原点出发,如果是正样本,则沿着Y轴走1/M(一小格子),接着采样,得到第二个样本,如果正继续沿着Y轴走,否则沿着X轴走1/N(一小格)。执行完之后,我们就可以得到ROC曲线。

不失一般性,我们发现,ROC和AUC是一样的思想。在积分的时候,我们横着看,每一行(对应一个正样本)的格子数就是我们AUC公式中分析的负样本个数。所以二者在此是一致的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值