什么是ROC曲线？为什么要使用ROC?以及 AUC的计算

最新推荐文章于 2025-04-07 21:09:57 发布

静待花开s0

最新推荐文章于 2025-04-07 21:09:57 发布

阅读量6.6w

点赞数 62

分类专栏： machine learning 文章标签： ROC AUC TP TN FP

本文链接：https://blog.csdn.net/IT_flying625/article/details/103246932

版权

machine learning 专栏收录该内容

23 篇文章

订阅专栏

本文深入解析ROC曲线和AUC的概念，阐述其在分类器评估中的应用，尤其是在正负样本分布不均衡的情况下的稳定性优势。同时，文章详细介绍了ROC曲线的构成、AUC的计算方法及AUC值的解读，帮助读者理解如何通过AUC值判断分类器的优劣。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、ROC简介

ROC的全名叫做Receiver Operating Characteristic，中文名字叫“受试者工作特征曲线”，其主要分析工具是一个画在二维平面上的曲线——ROC 曲线。平面的横坐标是false positive rate(FPR)，纵坐标是true positive rate(TPR)。对某个分类器而言，我们可以根据其在测试样本上的表现得到一个TPR和FPR点对。这样，此分类器就可以映射成ROC平面上的一个点。调整这个分类器分类时候使用的阈值，我们就可以得到一个经过(0, 0)，(1, 1)的曲线，这就是此分类器的ROC曲线。

一般情况下，这个曲线都应该处于(0, 0)和(1, 1)连线的上方。因为(0, 0)和(1, 1)连线形成的ROC曲线实际上代表的是一个随机分类器。如果很不幸，你得到一个位于此直线下方的分类器的话，一个直观的补救办法就是把所有的预测结果反向，即：分类器输出结果为正类，则最终分类的结果为负类，反之，则为正类。虽然，用ROC 曲线来表示分类器的性能很直观好用。可是，人们总是希望能有一个数值来标志分类器的好坏。于是Area Under roc Curve(AUC)就出现了。顾名思义，AUC的值就是处于ROC 曲线下方的那部分面积的大小。通常，AUC的值介于0.5到1.0之间，较大的AUC代表了较好的性能。AUC（Area Under roc Curve）是一种用来度量分类模型好坏的一个标准。

二、基本概念

解读ROC图的一些概念定义:：

1. 四种分类

真正（True Positive , TP）被模型预测为正的正样本；
假负（False Negative , FN）被模型预测为负的正样本；
假正（False Positive , FP）被模型预测为正的负样本；
真负（True Negative , TN）被模型预测为负的负样本。

2. 横纵坐标解释

该曲线的横坐标为假阳性率（False Positive Rate, FPR），N是真实负样本的个数，
FP是N个负样本中被分类器预测为正样本的个数。

纵坐标为真阳性率（True Positive Rate, TPR），

P是真实正样本的个数，
TP是P个正样本中被分类器预测为正样本的个数。

3.混淆矩阵

对于二分类问题，可将样本根据其真实类别与学习器预测类别的组合划分为TP(true positive)、FP(false positive)、TN(true negative)、FN(false negative)四种情况，TP+FP+TN+FN=样本总数。

三、为什么要选择ROC？

既然已经这么多评价标准，为什么还要使用ROC和AUC呢？因为ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡（class imbalance）现象，即负样本比正样本多很多（或者相反），而且测试数据中的正负样本的分布也可能随着时间变化。下图是ROC曲线和Precision-Recall曲线的对比：