AUC粗浅理解笔记记录

https://www.zhihu.com/question/30643044讲的很好
下述理解还不透彻,需要完善
ROC曲线反映了分类器的分类能力,结合考虑了分类器输出概率的准确性
AUC量化了ROC曲线的分类能力,越大分类效果越好,输出概率越合理
AUC常用作CTR的离线评价,AUC越大,CTR的排序能力越强

AUC(Area under the Curve of ROC)是ROC曲线下方的面积,是判断二分类预测模型优劣的标准

ROC曲线的横坐标是伪阳性率(也叫假正类率,False Positive Rate),纵坐标是真阳性率(真正类率,True Positive Rate),相应的还有真阴性率(真负类率,True Negative Rate)和伪阴性率(假负类率,False Negative Rate)。

伪阳性率(FPR)
判定为正例却不是真正例的概率
真阳性率(TPR)
判定为正例也是真正例的概率
伪阴性率(FNR)
判定为负例却不是真负例的概率
真阴性率(TNR)
判定为负例也是真负例的概率

在这里插入图片描述
作用可以无视样本的不平衡!!这也是下面分析中,如果真实负样本虽然只是占据了10%,但是全部预测为正样本的时候,AUC却为0的原因。
在这里插入图片描述

优雅理解法
我想,既然是计算面积,能否像时间速度曲线一样,套用积分计算路程的思路去理解呢?这个问题思考了许久,始终没能把真阳性率与速度、伪阳性率与时间挂上钩。众所周知,时间速度曲线图如下:
在这里插入图片描述
图中阴影部分的面积便是路程,因为上图x轴上的任意两值相减得到的时间差是有直观意义的。相比之下,ROC中假阳性率相减则并没有如此直观的概念。ROC图从直观上看能得出两个结论:曲线点越接近右下角表示当前阈值预测正例出错的概率越高,准确性较低;曲线点越接近左上角则代表预测正例出错的概率越低,准确性较高。如下图:
在这里插入图片描述
时间速度曲线是连续的,而ROC曲线是由一组离散的点组成,因为在一般情况下,分类的样本空间有限。其点总数其实就是样本总数,y轴最小步长为1/样本正例数,x轴的最小步长则是1/样本负例数。既然曲线点可枚举,那么我们就可以多举举栗子。

现在假设有一个训练好的二分类器对
10个正负样本(正例5个,负例5个)预测所以途中就是5*5的格子。如果预测为正,则往上,预测为负,则往右。
得分按高到低排序得到的最好预测结果为[1, 1, 1, 1, 1, 0, 0, 0, 0, 0],即5个正例均排在5个负例前面,正例排在负例前面的概率为100%。然后绘制其ROC曲线,由于是10个样本,除开原点我们需要描10个点,如下:
在这里插入图片描述
描点方式按照样本预测结果的得分高低从左至右开始遍历。从原点开始,每遇到1便向y轴正方向移动y轴最小步长1个单位,这里是1/5=0.2;每遇到0则向x轴正方向移动x轴最小步长1个单位,这里也是0.2。不难看出,上图的AUC等于1,印证了正例排在负例前面的概率的确为100%。

我们不妨再举个栗子,预测结果序列为[1, 1, 1, 1, 0, 1, 0, 0, 0, 0]。
在这里插入图片描述
计算上图的AUC为0.96与计算正例与排在负例前面的概率0.8 × 1 + 0.2 × 0.8 = 0.96相等,而左上角阴影部分的面积则是负例排在正例前面的概率0.2 × 0.2 = 0.04。

再看个栗子,预测结果序列为[1, 1, 1, 0, 1, 0, 1, 0, 0, 0]。
在这里插入图片描述
计算上图的AUC为0.88与计算正例与排在负例前面的概率0.6 × 1 + 0.2 × 0.8 + 0.2 × 0.6 = 0.88相等,左上角阴影部分的面积是负例排在正例前面的概率0.2 × 0.2 × 3 = 0.12。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值