【分类问题中模型的性能度量(二)】超强整理，超详细解析，一文彻底搞懂ROC、AUC

本文链接：https://blog.csdn.net/weixin_41059350/article/details/89843496

文章目录

1.背景
2.ROC曲线
- 2.1 ROC名称溯源(选看)
- 2.2 ROC曲线的绘制
3.AUC(Area Under ROC Curve)

1.背景

很多学习器是为测试样本产生一个实值或概率预测(比如比较简单的逻辑回归分类器)，然后将这个预测值与一个分类阈值(threshold)进行比较，若大于阈值则分为正类，否则为反类。这个实值或概率预测结果的好坏，直接决定了学习器的泛化能力。我们可以根据这个实值或概率预测结果，将测试样本进行排序，“最可能”是正例的排在最前面，“最不可能”是正例的排在最后面。这样，分类过程就相当于在这个排序中以某个 “截断点”(cut point)将样本分类两部分，前一部分判作正例，后一部分则判作反例。

在不同的应用任务中，我们可以根据任务需求来采用不同的截断点，例如：

更重视“查准率”，则可选择排序中靠前的位置进行截断
更重视“查全率”，则可选择排序中靠后的位置进行截断

因此，排序本身的质量好坏，体现了综合考虑学习器在不同任务下的“期望泛化性能”的好坏，或者说，“一般情况下”泛化性能的好坏。ROC曲线就是从这个角度出发来研究学习器泛化性能的有力工具。

注：混淆矩阵、查准率、查全率等概念参见上一篇文章：分类问题中模型的性能度量(一)

2.ROC曲线

2.1 ROC名称溯源(选看)

ROC全称是“受试者工作特征”(Receiver Operating Characteristic)曲线，它源于“二战”中用于敌机检测的雷达信号分析技术。

具体来说，据说在二战期间，军队中雷达兵的任务是通过观察显示屏的雷达信号来判断是不是有敌人来了，在以下两种情况下显示屏上会有雷达信号：

有敌机来袭(真实情况下的正例)
有飞鸟(真实情况下的负例)

这个时候不同的雷达兵就可能会报出不同的结果：

假如这个雷达兵比较谨慎，只要有信号就报告有敌情(可以看作更重视“查全率”)，就会增加误报的风险；
假如这个雷达兵比较大胆，只要有信号就认为是鸟(可以看作更重视“查准率”)，就会增加漏报的风险。

这样就有了我们针对这个问题的“混淆矩阵”：
在这里插入图片描述
理想情况下，希望每个雷达兵能够好好研究飞机和飞鸟信号的区别，进行准确的判断。但是现实问题是，每个雷达兵的判断标准不一，谨慎的容易出现误报，胆大的容易出现漏报。

针对以上问题，雷达兵的上级管理者汇总了每个雷达兵的汇报特点，尤其是他们的漏报和误报的概率，并将这些概率基于二维坐标系绘制成一个图形：

纵坐标为敏感性(真阳性率)：表示在所有敌人来袭(即真实情况为正例，TP+FN)的事件中，每个雷达兵准确预报(即TP)的概率；
横坐标为1-特异性(假阳性率)：表示在所有飞鸟信号(即真实情况为反例，TN+FP)中，每个雷达兵预报错误(即FP)的概率；

每个雷达兵的预报标准不同，所以得到的敏感性和特异性的组合也不同。一个雷达兵的敏感性和特异性的组合正好在一条曲线上，这条曲线就是ROC曲线。

到这里就不难理解ROC曲线为什么叫做“受试者工作特征”曲线了，在这里受试者就是指雷达兵，绘制这个曲线的目的就是观察雷达兵的工作特征，所以叫做受试者工作特征曲线。

在机器学习中，受试者就是我们的学习器了，绘制曲线的目的就是观察学习器的工作性能。

2.2 ROC曲线的绘制

与分类问题中模型的性能度量(一)中介绍的P-R曲线类似，我们根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值：

真正例率(True Positive Rate,TPR)，也称为灵敏度(Sensitivity)，
$TPR=\frac{TP}{TP+FN}$
假正例率(False Positive Rate,FPR)，也称为1-特异度(Specificity)，
$FPR=\frac{FP}{FP+TN}$
注：特异度= $\frac{TN}{FP+TN}$

结合二分类问题的混淆矩阵我们知道，TP+FN其实就是所有真实情况为正的样本数，FP+TN其实就是所有真实情况为反的样本数，那么我们令P=TP+FN，N=FP+TN，就可以得到简化版的公式(便于理解)：

$TPR=\frac{TP}{P}$ ，这时很容易看出，真正例率其实就是在所有真实情况下为正的样例中，预测为正的样本所占比例；
$FPR=\frac{FP}{N}$ ，假正例率其实就是在所有真实情况下为反的样例中，预测为正的样本所占比例；

以FPR作为横轴、TPR作为纵轴作图，就得到了“ROC曲线”，显示ROC曲线的图叫做“ROC图”，如下所示：
在这里插入图片描述
对ROC图的几点解释：

图(a)中的对角线(图中虚线)，对应于“随机猜测”模型；
ROC曲线越靠近左上角，性能越好；
点(0,1)(左上角)，对应于将所有正例排在所有反例之前的“理想模型”(左上角对应的点为(0,1),也就是FPR=0,TPR=1,结合上面的公式，可以得到这时FP=0,FN=0,模型对所有的样本分类都正确，也就是将真实为正的预测为正，真实为反的预测为反，没有假正、假反。)
ROC曲线与P-R曲线不一样的地方在于，当正反样例分布发生剧烈变化的时候：ROC曲线的形状基本能够保持不变；P-R曲线的形状一般会发生剧烈变化。

现实任务中，通常是利用有限个测试样例来绘制ROC图，此时仅能获得有限个(FPR,TPR)坐标对，无法产生图(a)中光滑的ROC曲线，只能绘制出图(b)所示的近似ROC曲线。绘制过程如下：

1.给定 $m^+$ 个正例和 $m^-$ 个反例，根据学习器预测结果对样例进行排序
2.设置不同的分类阈值：
2.1 把分类阈值设为最大，即把所有样例均预测为反例，此时TPR=FPR=0。在坐标(0,0)处标记一个点。
2.2 将分类阈值依次设为每个样例的预测值，即依次将每个样例划分为正例。设前一个标记点坐标为 $(x, y)$ ：
当前若为真正例(TP)，则对应标记点的坐标为 $(x,y+\frac{1}{m^+})$ ；
当前若为假正例(FP)，则对应标记点的坐标为 $(x+\frac{1}{m^-},y)$ ；
3.最后用线段连接相邻点即得ROC曲线

3.AUC(Area Under ROC Curve)

3.1 AUC来历

进行学习器比较时，与P-R图类似：

若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者；
若两个学习器的ROC曲线发生交叉，则难以一般性地断言两者哪个更优。此时如果一定要进行比较，则较为合理的判据是：比较ROC曲线下的面积，即AUC(Area Under ROC Curve)。

3.2 AUC几何意义

从定义可知，AUC可通过对ROC曲线下各部分的面积求和而得。

假定ROC曲线是由坐标 ${(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ 的点按序连接而成 $x_1=0,x_m=1)$ ，参见上面图(b)，则AUC可估算为：
$AUC=\frac{1}{2}\sum_{i=1}^{m-1}(x_{i+1}-x_i)*(y_i+y_{i+1})$

3.3 AUC计算

形式化地看，AUC考虑的是样本预测的排序质量，因此它与排序误差有紧密联系。给定 $m^+$ 个正例和 $m^-$ 个反例，令 $D^+$ 和 $D^-$ 分别表示正、反例集合，则排序“损失”(loss)定义为：
$l_{rank}=\frac{1}{m^+*m^-}\sum_{x^+\in D^+}\sum_{x^- \in D^-}\left(Ⅱ(f(x^+)<f(x^-))+\frac{1}{2}Ⅱ(f(x^+)=f(x^-))\right)$ ，其中Ⅱ()为指示函数，在为正和假时分别取值为1,0。