机器学习性能评估指标之ROC曲线（Receiver Operating Characteristic Curve）

浩瀚之水_csdn

于 2025-03-24 10:48:39 发布

阅读量899

点赞数 32

分类专栏： # 机器学习性能评价深度学习目标检测文章标签： python 机器学习人工智能

本文链接：https://blog.csdn.net/a8039974/article/details/146470216

版权

深度学习目标检测同时被 2 个专栏收录

348 篇文章

订阅专栏

机器学习性能评价

10 篇文章

订阅专栏

ROC曲线是评估二分类模型性能的核心工具，通过可视化模型在不同阈值下的真正率（TPR）和假正率（FPR）的权衡关系，适用于类别均衡或轻度不平衡的场景。以下是其核心概念、应用场景及实际案例的全面解析：

一、ROC曲线的定义与构成

1. 核心指标

真正率（TPR，True Positive Rate）

衡量真实正类样本中被正确预测的比例。
假正率（FPR，False Positive Rate）

衡量真实负类样本中被错误预测为正类的比例。

2. ROC曲线的构成

横轴：FPR（假正率），范围[0, 1]。
纵轴：TPR（真正率），范围[0, 1]。
曲线绘制：通过调整分类阈值（从1.0到0.0），计算不同阈值下的（FPR, TPR）点并连接成曲线。

二、ROC曲线的绘制步骤

排序预测概率：将测试集样本按模型输出的正类概率从高到低排序。
调整分类阈值：从高到低遍历阈值（如0.9, 0.8, ..., 0.1），逐个判定样本为正类。
计算TPR与FPR：在每个阈值下统计TP、FP、TN、FN，计算对应的TPR和FPR。
连接所有点：将不同阈值下的（FPR, TPR）点按顺序连接，形成ROC曲线。

示例数据：

样本	真实标签	预测概率	阈值=0.8时预测结果
A	正	0.95	正（TP）
B	负	0.90	正（FP）
C	正	0.85	正（TP）
D	负	0.75	负（TN）

当阈值为0.8时：
- TP=2（A、C），FP=1（B），FN=0，TN=1（D）。
- TPR=2/(2+0)=1.0，FPR=1/(1+1)=0.5。
重复计算不同阈值下的点，绘制曲线。

三、AUC（Area Under Curve）

1. AUC的定义

意义：ROC曲线下面积，表示模型将正样本排在负样本前面的概率。
取值范围：0.5（随机猜测）到1.0（完美分类）。

2. AUC的解读

AUC=0.7：随机抽取一个正样本和一个负样本，模型将正样本预测为正类的概率为70%。
AUC=0.5：模型无区分能力（等同于抛硬币）。
AUC>0.8：通常认为模型性能良好。

四、ROC曲线的应用场景

1. 类别相对均衡的任务

示例：信用评分（好坏用户比例接近）、垃圾邮件过滤（正常邮件与垃圾邮件均衡）。

2. 需要权衡FPR和TPR的场景

风控模型：降低FPR（减少误判正常交易为欺诈）。
疾病筛查：提高TPR（减少漏诊患者）。

3. 模型性能对比

曲线位置：
- 曲线越靠近左上角（TPR高，FPR低），模型性能越好。
- 曲线接近对角线（AUC=0.5），模型无效。

五、ROC曲线 vs PR曲线

指标	横轴	纵轴	适用场景
ROC曲线	FPR（假正率）	TPR（召回率）	类别均衡或轻度不平衡
PR曲线	Recall（召回率）	Precision（精确率）	类别高度不平衡（正类<10%）

关键区别：

类别不平衡时：
- ROC曲线可能虚高（因大量TN导致FPR易降低）。
- PR曲线直接反映正类的识别能力，更敏感于模型改进。
实例对比：
- 若正类仅占1%，模型A的ROC-AUC=0.9，但PR曲线可能显示AP=0.3，说明模型对正类识别能力不足。

六、ROC曲线的优缺点

优点：

对类别分布相对鲁棒（轻度不平衡下仍有效）。
提供全局性能视角，直观反映FPR-TPR权衡。

缺点：

高度不平衡数据：AUC可能虚高，需结合PR曲线分析。
多分类扩展：需通过“一对多”策略为每个类别单独绘制ROC曲线。

七、实际案例：信用评分模型

数据分布：

正类（违约用户）：1000例
负类（正常用户）：9000例

模型对比：

模型A：AUC=0.85（TPR=0.80，FPR=0.15）。
模型B：AUC=0.78（TPR=0.90，FPR=0.30）。

分析：

模型A：适合风控场景（低FPR优先，减少误判正常用户）。
模型B：适合催收场景（高TPR优先，减少漏判违约用户）。

八、代码实现（Python）

import matplotlib.pyplot as plt
from sklearn.metrics import roc_curve, roc_auc_score

# 示例数据
y_true = [1, 0, 1, 0, 1, 1, 0, 1]
y_scores = [0.9, 0.8, 0.7, 0.6, 0.55, 0.54, 0.53, 0.4]

# 计算FPR, TPR和AUC
fpr, tpr, thresholds = roc_curve(y_true, y_scores)
auc = roc_auc_score(y_true, y_scores)

# 绘制ROC曲线
plt.plot(fpr, tpr, marker='.', label=f'AUC={auc:.2f}')
plt.plot([0, 1], [0, 1], linestyle='--', label='Random Guess')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
plt.legend()
plt.show()