机器学习评估利器：ROC曲线与AUC的理论与实践

最新推荐文章于 2025-04-07 19:26:45 发布

Echo-Nie

最新推荐文章于 2025-04-07 19:26:45 发布

阅读量1.2k

点赞数 30

分类专栏：机器学习文章标签：机器学习人工智能 ROC曲线 scikit-learn

本文链接：https://blog.csdn.net/nyxdsb/article/details/145445625

版权

机器学习专栏收录该内容

12 篇文章

订阅专栏

欢迎来到我的主页：【Echo-Nie】

本篇文章收录于专栏【机器学习】

在这里插入图片描述

1 ROC曲线基础

接收者操作特性曲线（Receiver Operating Characteristic Curve，简称ROC曲线）是机器学习领域中用于评估二分类模型性能的重要工具之一。它不仅能够展示模型在不同阈值下的表现，还能帮助我们找到最佳的决策点。

ROC曲线是一种坐标图式的分析工具，横轴表示假正类率（False Positive Rate, FPR），纵轴表示真正类率（True Positive Rate, TPR）。

TPR（True Positive Rate）：也称为灵敏度（Sensitivity）或召回率（Recall），公式为：
$\text{TPR} = \frac{\text{TP}}{\text{TP} + \text{FN}}$
假正例率FPR：
$\text{FPR} = \frac{\text{FP}}{\text{FP} + \text{TN}}$

2 使用SKLearn绘制ROC曲线

为了绘制ROC曲线，我们需要做以下几步：

对于给定的分类器和测试集，首先确定一个初始的阈值。
根据这个阈值对测试集进行分类，得到混淆矩阵，并据此计算TPR和FPR。
改变阈值，重复步骤2，直到遍历所有可能的阈值。
将所有的（FPR, TPR）点连成一条曲线，即为ROC曲线。

from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt
import numpy as np

# 假设真实标签
y_true = np.array([0] * 90 + [1] * 10)  # 90个负类和10个正类

# 假设模型预测的概率得分
# 让正类的得分显著高于负类，以获得更好的区分能力
y_scores = np.concatenate([np.random.rand(80) * 0.1, np.random.rand(20) * 0.9 + 0.1])

# 计算ROC曲线上的点
fpr, tpr, thresholds = roc_curve(y_true, y_scores)

# 计算AUC值
roc_auc = auc(fpr, tpr)

# 绘制ROC曲线
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()

在这里插入图片描述

3 ROC与AUC

3.1 AUC的定义

AUC是指ROC曲线下方的面积，它的取值范围是从0到1。AUC的具体含义是：如果随机选择一个正样本和一个负样本，分类器将正样本排在负样本前面的概率。具体来说：

$\text{AUC} = P(\hat{y}_+ > \hat{y}_-)$

其中 $\hat{y}_+$ 和 $\hat{y}_-$ 分别是模型对正样本和负样本的预测得分。

因此，AUC实际上衡量了模型区分正负样本的能力。

3.2 AUC与ROC曲线的关系

ROC曲线上的点:
- ROC曲线上的每一个点代表了一组特定的 $FPR$ 和 $TPR$ 值，这组值是在某个特定的决策阈值下计算出来的。
- 当阈值从高到低变化时，我们得到一系列的 $(FPR, TPR)$ 点，这些点连成一条曲线，即ROC曲线。
AUC作为ROC曲线下的面积:
- AUC是ROC曲线下方的面积，它综合反映了模型在不同阈值下的整体表现。
- 如果一个模型能够完美地分离正负样本，那么ROC曲线会尽可能靠近左上角，对应的AUC接近于1。
- 如果模型的表现相当于随机猜测，那么ROC曲线会是一条从 $(0, 0)$ 到 $(1, 1)$ 的对角线，AUC等于0.5。
AUC的计算方法:
可以通过数值积分的方法计算，也可以使用一些简化公式。使用sklearn.metrics.auc函数来计算AUC。

为了更好地理解AUC的意义，我们可以从数学角度进行推导。

假设我们有两个样本 $x_+$ 和 $x_-$ ，分别代表正样本和负样本。设模型对这两个样本的预测得分为 $\hat{y}_+$ 和 $\hat{y}_-$ 。根据AUC的定义：

$ \text{AUC} = P(\hat{y}+ > \hat{y}-) $

这意味着我们需要计算所有可能的正负样本对中，正样本得分大于负样本得分的概率。

3.3 AUC计算步骤

假设有 $N$ 个正样本和 $M$ 个负样本，分别计算每个样本的预测得分。
将所有样本的得分按降序排列。
对于每一对正负样本，计算正样本得分大于负样本得分的概率。
这可以通过比较两个样本的排名来实现。如果正样本的排名高于负样本，则认为该对样本满足条件。

计算公式如下：

设正样本集合为 $P$ ，负样本集合为 $N$ 。对于任意一对正样本 $\in P$ 和负样本 $\in N$ ，如果 $p$ 的得分大于 $n$ 的得分，则该对样本计数加1。

$\text{AUC} = \frac{\sum_{p \in P} \sum_{n \in N} I(\hat{y}_p > \hat{y}_n)}{|P| \cdot |N|}$

其中， $I(\cdot)$ 是指示函数，当条件成立时返回1，否则返回0。

$\sum_{p \in P} \sum_{n \in N}$ ：这部分表示对所有可能的正样本 $p$ 和负样本 $n$ 对进行求和。换句话说，就是遍历每个正样本和每个负样本的所有组合。

$I(\hat{y}_p > \hat{y}_n)$ ：这是指示函数，当条件 $\hat{y}_p > \hat{y}_n$ 成立时（即正样本的预测得分大于负样本的预测得分），返回值为1；否则返回0。通过这个函数，我们能够量化有多少对正样本和负样本满足正样本得分高于负样本得分这一条件。

$∣ P ∣$ 和 $∣ N ∣$ ：分别代表正样本集合 $P$ 和负样本集合 $N$ 中元素的数量，也就是正样本和负样本的总数。

$\frac{\sum I(\hat{y}_p > \hat{y}_n)}{|P| \cdot |N|}$ ：整个分数部分计算的是所有正样本得分大于负样本得分的概率。分母 $\cdot |N|$ 表示总的比较次数，而分子则是这些比较中符合条件（正样本得分大于负样本得分）的次数总和。因此，AUC实际上给出了模型在所有可能的正负样本对中正确排序的比例。

4 ROC曲线与AUC的最差表现分析

为什么说最差是0.5，而不是0呢？

设分类模型对样本的预测得分为随机变量 $S$ ，真实标签为 $\in \{0,1\}$ 。对于任意阈值 $t$ ，定义：

真阳性率： $\text{TPR}(t) = P(S > t \mid Y=1)$
假阳性率： $\text{FPR}(t) = P(S > t \mid Y=0)$

ROC曲线是TPR关于FPR的参数曲线（参数为 $t$ ），AUC（Area Under Curve）是曲线下的面积。

4.1 最差情况：模型无区分能力

当模型完全随机（即预测得分 $S$ 与标签 $Y$ 独立）时，正例和负例的得分分布相同：
$\mid Y=1 \stackrel{d}{=} S \mid Y=0$
此时，对于任意阈值 $t$ ，有：
$\text{TPR}(t) = \text{FPR}(t)$
因此，ROC曲线退化为直线 $\text{TPR} = \text{FPR}$ ，即从 $(0, 0)$ 到 $(1, 1)$ 的对角线。该直线下的面积为：
$\text{AUC} = \int_{0}^{1} \text{TPR} \, d\text{FPR} = \int_{0}^{1} x \, dx = \frac{1}{2}$