2.4 ROC曲线是什么？

seasonsyy

已于 2024-03-18 21:02:38 修改

阅读量1.1k

点赞数 35

分类专栏：《百面机器学习》深度学习小知识文章标签：机器学习小知识 ROC曲线

于 2024-03-18 14:19:48 首次发布

本文链接：https://blog.csdn.net/seasonsyy/article/details/136808080

版权

深度学习小知识同时被 2 个专栏收录

56 篇文章 3 订阅

订阅专栏

《百面机器学习》

18 篇文章 1 订阅

订阅专栏

2.4 ROC曲线是什么？

场景描述
二值分类器(Binary Classifier)是机器学习领域中最常见也是应用最广泛的分类器。

评价二值分类器的指标很多，比如precision、recall、F1score、P-R 曲线等。前面已对这些指标做了一定的介绍，但也发现这些指标或多或少只能反映模型在某一方面的性能。

相比而言，ROC曲线则有很多优点，经常作为评估二值分类器最重要的指标之一。下面我们来详细了解一下ROC 曲线的绘制方法和特点。
知识点
ROC曲线,曲线下的面积(Area Under Curve,AUC),P-R 曲线

什么是ROC曲线?

ROC 曲线是Receiver Operating Characteristic Curve的简称，中文名为“受试者工作特征曲线”。ROC曲线源于军事领域，而后在医学领域应用甚广，“受试者工作特征曲线”这一名称也正是来自于医学领域。

ROC 曲线的横坐标为假阳性率(False Positive Rate，FPR)
$\frac{{FP}}{N}$
ROC 曲线的纵坐标为真阳性率(True Positive Rate，TPR)

$\frac{{TP}}{P}$

其中，P是真实的正样本的数量，N是真实的负样本的数量，TP是P个正样本中被分类器预测为正样本的个数，FP是N个负样本中被分类器预测为正样本的个数。

Example:只看定义确实有点绕，为了更直观地说明这个问题，我们举一个医院诊断病人的例子。

假设有10位疑似癌症患者，其中有3位很不幸确实患了癌症(P=3)，另外7位不是癌症患者(N=7)。

医院对这10位疑似患者做了诊断，诊断出3位癌症患者，其中有2位确实是真正的患者(TP=2)。那么真阳性率（TPR=TP/P=2/3）。

对于7位非癌症患者来说，有一位很不幸被误诊为癌症患者(FP=1)，那么假阳性率FPR=FP/N=1/7。

对于“该医院”这个分类器来说，这组分类结果就对应ROC曲线上的一个点(1/7,2/3)。

ROC曲线的由来

ROC 曲线最早是运用在军事上的，后来逐渐运用到医学领域，并于20世纪80年代后期被引入机器学习领域。相传在第二次世界大战期间，雷达兵的任务之一就是死死地盯住雷达显示器，观察是否有敌机来袭。理论上讲，只要有敌机来袭，雷达屏幕上就会出现相应的信号。但是实际上，如果飞鸟出现在雷达扫描区域时，雷达屏幕上有时也会出现信号。这种情况令雷达兵烦恼不已，如果过于谨慎，凡是有信号就确定为敌机来袭，显然会增加误报风险；如果过于大胆，凡是信号都认为是飞鸟，又会增加漏报的风险。每个雷达兵都竭尽所能地研究飞鸟信号和飞机信号之间的区别，以便增加预报的准确性。但问题在于，每个雷达兵都有自己的判别标准，有的雷达兵比较谨慎，容易出现误报；有的雷达兵则比较胆大，容易出现漏报。
为了研究每个雷达兵预报的准确性，雷达兵的管理者汇总了所有雷达兵的预报特点，特别是他们漏报和误报的概率，并将这些概率画到一个二维坐标系里。这个二维坐标的纵坐标为敏感性(真阳性率)，即在所有敌机来袭的事件中，每个雷达兵准确预报的概率。而横坐标则为1-特异性(假阳性率)，表示在所有非敌机来袭信号中，雷达兵预报错误的概率。由于每个雷达兵的预报标准不同，且得到的敏感性和特异性的组合也不同。将这些雷达兵的预报性能进行汇总后，雷达兵管理员发现他们刚好在一条曲线上，这条曲线就是后来被广泛应用在医疗和机器学习领域的ROC 曲线。