ROC曲线：接收者操作特征曲线

最新推荐文章于 2024-07-10 20:27:45 发布

eight_Jessen

最新推荐文章于 2024-07-10 20:27:45 发布

阅读量4k

点赞数 1

分类专栏： python 文章标签：机器学习深度学习人工智能计算机视觉

本文链接：https://blog.csdn.net/eight_Jessen/article/details/107943999

版权

python 专栏收录该内容

50 篇文章 2 订阅

订阅专栏

接收者操作特征曲线（receiver operating characteristic curve，或者叫ROC曲线）

在做决策时，ROC分析能不受成本／效益的影响，给出客观中立的建议

分类模型（又称分类器，或诊断）是将一个实例映射到一个特定类的过程。

二元分类模型的个案预测有四种：
这四种结局可以画成2 × 2的混淆矩阵：
在这里插入图片描述

ROC空间

ROC空间将伪阳性率（FPR）定义为 X 轴，真阳性率（TPR）定义为 Y 轴。

TPR：在所有实际为阳性的样本中，被正确地判断为阳性之比率。

$(T P R = T P / (T P + F N)$
FPR：在所有实际为阴性的样本中，被错误地判断为阳性之比率。
$(F P R = F P / (F P + T N)$
给定一个二元分类模型和它的阈值，就能从所有样本的（阳性／阴性）真实值和预测值计算出一个 (X=FPR, Y=TPR) 座标点.

从 (0, 0) 到 (1,1) 的对角线将ROC空间划分为左上／右下两个区域，在这条线的以上的点代表了一个好的分类结果（胜过随机分类），而在这条线以下的点代表了差的分类结果（劣于随机分类）。

完美的预测是一个在左上角的点，在ROC空间座标 (0,1)点，X=0 代表着没有伪阳性，Y=1 代表着没有伪阴性（所有的阳性都是真阳性）；也就是说，不管分类器输出结果是阳性或阴性，都是100%正确。一个随机的预测会得到位于从 (0, 0) 到 (1, 1) 对角线（也叫无识别率线）上的一个点

对于预测结果比较低的，只要取反，就可以得出比较好的结果

ROC曲线

同一个二元分类模型的阈值可能设定为高或低，每种阈值的设定会得出不同的FPR和TPR。

由于每个不同的分类器有各自的测量标准和测量值的单位，所以不同分类器的“分布图”都长得不一样
比较不同分类器时，ROC曲线的实际形状，便视两个实际分布的重叠范围而定，没有规律可循
但在同一个分类器之内，阈值的不同设定对ROC曲线的影响，仍有一些规律可循：

阈值设定为最高时，亦即所有样本都被预测为阴性，没有样本被预测为阳性，此时在伪阳性率 FPR = FP / ( FP + TN ) 算式中的 FP = 0，所以 FPR = 0%。同时在真阳性率（TPR）算式中， TPR = TP / ( TP + FN ) 算式中的 TP = 0，所以 TPR = 0%

→ 当阈值设定为最高时，必得出ROC座标系左下角的点 (0, 0)。

当阈值设定为最低时，亦即所有样本都被预测为阳性，没有样本被预测为阴性，此时在伪阳性率FPR = FP / ( FP + TN ) 算式中的 TN = 0，所以 FPR = 100%。同时在真阳性率 TPR = TP / ( TP + FN ) 算式中的 FN = 0，所以 TPR=100%

→ 当阈值设定为最低时，必得出ROC座标系右上角的点 (1, 1)。

因为TP、FP、TN、FN都是累积次数，TN和FN随着阈值调低而减少（或持平），TP和FP随着阈值调低而增加（或持平），所以FPR和TPR皆必随着阈值调低而增加（或持平）。

→ 随着阈值调低，ROC点往右上（或右／或上）移动，或不动；但绝不会往左下(或左／或下)移动。