AUC粗浅理解笔记记录

最新推荐文章于 2022-10-06 11:11:41 发布

Better-1

最新推荐文章于 2022-10-06 11:11:41 发布

阅读量497

点赞数

分类专栏：深度学习

原文链接：https://blog.csdn.net/hellozhxy/article/details/82586916

版权

深度学习专栏收录该内容

29 篇文章 2 订阅

订阅专栏

https://www.zhihu.com/question/30643044讲的很好
下述理解还不透彻，需要完善
ROC曲线反映了分类器的分类能力，结合考虑了分类器输出概率的准确性
AUC量化了ROC曲线的分类能力，越大分类效果越好，输出概率越合理
AUC常用作CTR的离线评价，AUC越大，CTR的排序能力越强

AUC（Area under the Curve of ROC）是ROC曲线下方的面积，是判断二分类预测模型优劣的标准

ROC曲线的横坐标是伪阳性率（也叫假正类率，False Positive Rate），纵坐标是真阳性率（真正类率，True Positive Rate），相应的还有真阴性率（真负类率，True Negative Rate）和伪阴性率（假负类率，False Negative Rate）。

伪阳性率（FPR）
判定为正例却不是真正例的概率
真阳性率（TPR）
判定为正例也是真正例的概率
伪阴性率（FNR）
判定为负例却不是真负例的概率
真阴性率（TNR）
判定为负例也是真负例的概率
在这里插入图片描述
作用可以无视样本的不平衡！！这也是下面分析中，如果真实负样本虽然只是占据了10%，但是全部预测为正样本的时候，AUC却为0的原因。

优雅理解法
我想，既然是计算面积，能否像时间速度曲线一样，套用积分计算路程的思路去理解呢？这个问题思考了许久，始终没能把真阳性率与速度、伪阳性率与时间挂上钩。众所周知，时间速度曲线图如下：
在这里插入图片描述
图中阴影部分的面积便是路程，因为上图x轴上的任意两值相减得到的时间差是有直观意义的。相比之下，ROC中假阳性率相减则并没有如此直观的概念。ROC图从直观上看能得出两个结论：曲线点越接近右下角表示当前阈值预测正例出错的概率越高，准确性较低；曲线点越接近左上角则代表预测正例出错的概率越低，准确性较高。如下图：
在这里插入图片描述
时间速度曲线是连续的，而ROC曲线是由一组离散的点组成，因为在一般情况下，分类的样本空间有限。其点总数其实就是样本总数，y轴最小步长为1/样本正例数，x轴的最小步长则是1/样本负例数。既然曲线点可枚举，那么我们就可以多举举栗子。

现在假设有一个训练好的二分类器对
10个正负样本（正例5个，负例5个）预测所以途中就是5*5的格子。如果预测为正，则往上，预测为负，则往右。
得分按高到低排序得到的最好预测结果为[1, 1, 1, 1, 1, 0, 0, 0, 0, 0]，即5个正例均排在5个负例前面，正例排在负例前面的概率为100%。然后绘制其ROC曲线，由于是10个样本，除开原点我们需要描10个点，如下：
在这里插入图片描述
描点方式按照样本预测结果的得分高低从左至右开始遍历。从原点开始，每遇到1便向y轴正方向移动y轴最小步长1个单位，这里是1/5=0.2；每遇到0则向x轴正方向移动x轴最小步长1个单位，这里也是0.2。不难看出，上图的AUC等于1，印证了正例排在负例前面的概率的确为100%。

我们不妨再举个栗子，预测结果序列为[1, 1, 1, 1, 0, 1, 0, 0, 0, 0]。
在这里插入图片描述
计算上图的AUC为0.96与计算正例与排在负例前面的概率0.8 × 1 + 0.2 × 0.8 = 0.96相等，而左上角阴影部分的面积则是负例排在正例前面的概率0.2 × 0.2 = 0.04。

再看个栗子，预测结果序列为[1, 1, 1, 0, 1, 0, 1, 0, 0, 0]。
在这里插入图片描述
计算上图的AUC为0.88与计算正例与排在负例前面的概率0.6 × 1 + 0.2 × 0.8 + 0.2 × 0.6 = 0.88相等，左上角阴影部分的面积是负例排在正例前面的概率0.2 × 0.2 × 3 = 0.12。

Better-1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AUC粗浅理解笔记记录

下述理解还不透彻，需要完善AUC（Area under the Curve of ROC）是ROC曲线下方的面积，是判断二分类预测模型优劣的标准ROC曲线的横坐标是伪阳性率（也叫假正类率，False Positive Rate），纵坐标是真阳性率（真正类率，True Positive Rate），相应的还有真阴性率（真负类率，True Negative Rate）和伪阴性率（假负类率，False Negative Rate）。伪阳性率（FPR）判定为正例却不是真正例的概率真阳性率（TPR）判定为
复制链接

扫一扫