【机器学习】:理解分类模型评价指标AUC

 

知乎答主小小丘对AUC的解释很到位相对比较好理解,我就在此基础上更具体详细地去记录解释一下,方便自己的理解。

后附参考链接

 

ROC(Receiver Operating Characteristic)   受试者工作特性曲线

纵轴TPR(真正例率)和横轴FPR(假正例率)分别为

TPR=\frac{TP}{TP+FN}

FPR=\frac{FP}{FP+TN}

对于二分类问题,预测模型会对每一个样本预测一个概率p。 然后,可以选取一个阈值t,让p>t的样本预测为正,反之为负。 这样一来,根据预测的结果和实际的样本标签可以把样本分为4类

 实际正样本实际负样本
预测为正TP(真正例)FP(假正例)
预测为负FN(假负例)TN(真负例)

 

若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”,则可以断言后者的性能优于前者;若两个学习器发生交叉,则难以断言哪个好哪个差,此时较为合理的评判标准是ROC下的面积,即AUC。

 

AUC(Area Under ROC Curve)   ROC曲线下的面积

AUC的几何意义:

对ROC曲线下的各部分面积求和得到。

AUC的概率意义:

随机取出一个正样本和一个负样本,放入分类器中进行判别输出相应的为正的概率。

那么(正样本为正的概率)>(负样本为正的概率)的可能性即AUC。

记P为出现(正样本为正的概率)>(负样本为正的概率)的可能的次数

一堆已知正负的样本(假设正样本M个,负样本N个)

随机取一对正负样本的可能性有M*N对,则AUC=P/M*N。

 

接下来就是求P。

求出所有样本放入分类器后产生其可能为正的概率,对这个概率进行降序排列

记rank_x为在整个(M+N)中输出概率排名为rank_x的正样本的秩,x是单纯在正样本输出概率中进行升序排列的秩。

则在这个样本排名

之后(比此样本概率小)正样本有M-X个,

之前(比此样本概率大)有M-(M-X)-1=X-1个;

之前的负样本有(M+N-rank_x)-(X-1),

之后的负样本有N-[(M+N-rank_x)-(X-1)]=rank_x-(M-X+1)。

P就是所有(正样本为正的概率)>(负样本为正的概率)的可能组合个数,

以上诉例子来讲,就是对M个正样本而言,每次比较排名在它之后的样本个数

P=\sum_{X=1}^{M}rank_x-(M-X+1)

后面那项是等差数列,代入AUC公式化简一下就是知乎博主小小丘贴出的最后公式

AUC=\frac{\sum_{ins_{i}\in positiveclass}rank_{ins_{i}}-\frac{M*(M+1)}{2}}{M*N}

 

 

参考:

小小丘知乎答案

周志华的西瓜书

 

 

 

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

故沉

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值