再理解下ROC曲线和PR曲线

最新推荐文章于 2024-04-16 16:48:04 发布

foreyang00

最新推荐文章于 2024-04-16 16:48:04 发布

阅读量1.7k

点赞数

分类专栏： opencv 学习

opencv 学习专栏收录该内容

30 篇文章 0 订阅

订阅专栏

转自：http://www.zhizhihu.com/html/y2012/4076.html

大家都发表下对着俩曲线的理解吧。

分类、检索中的评价指标很多，Precision、Recall、Accuracy、F1、ROC、PR Curve......

一、历史

wiki上说，ROC曲线最先在二战中分析雷达信号，用来检测敌军。诱因是珍珠港事件；由于比较有用，慢慢用到了心理学、医学中的一些检测等应用，慢慢用到了机器学习、数据挖掘等领域中来了，用来评判分类、检测结果的好坏。

百科：ROC曲线指受试者工作特征曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、（1-特异性）为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高。在ROC曲线上，最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

二、原理

这里就拿最经典的二分类（0、1）问题讨论吧，分类器分类之后，往往会得到对每个样本是哪一类的一个估计，像是LR模型就会将这个估计规范化到【0,1】，根据这个估计，你选择一个阈值p_0，就可以将分类结果映射到0,1了；分类效果好不好跟真实的label比比就行了。

所以你手里有decision和label两个向量，用来做分类结果的评估。

要看ROC的原理，总离不开上面这个表格，ROC绘制的就是在不同的阈值p_0下，TPR和FPR的点图。所以ROC曲线的点是由不同的p_0所造成的。所以你绘图的时候，就用不同的p_0采点就行。

Precision-Recall曲线，这个东西应该是来源于信息检索中对相关性的评价吧，precision就是你检索出来的结果中，相关的比率；recall就是你检索出来的结果中，相关的结果占数据库中所有相关结果的比率；所以PR曲线要是绘制的话，可以先对decision进行排序，就可以当作一个rank值来用了，然后把分类问题看作检索问题，当返回一个结果的时候的PR pair是多少，2个、3个、一直到你所有的检测样本都包含；所以假设你的测试样本有100个，是不是会返回100个precision-recall点呢？然后把这些点绘制出来，就得到了PR曲线；所以，PR曲线的采点是按照样本的数量采的。注意，这一条PR曲线的绘制只对应一个p_0值，所以往往先选择最优的p_0，再绘制不同model的PR曲线，比较model的优劣。

可以看出TPR和Recall的形式是一样的，就是查全率了，FPR就是保证这样的查全率你所要付出的代价，就是把多少负样本也分成了正的了。

上面是我的理解，不知道对不对。

三、AUC的计算

为了更好的衡量ROC所表达结果的好坏，Area Under Curve（AUC）被提了出来，简单来说就是曲线右下角部分占正方形格子的面积比例；那么计算这个东西其实就很简单了，根据reference的paper，有很多很多计算方法，这里推荐一种近似采样的方法：采样。

你的分类器能够将正例排在负例前面的概率是多少，也就是采样中正例的decision>负例的decision的概率。