Python利用Seaborn绘制ROC和PR曲线以及AUC与AUPR的计算

本文链接：https://blog.csdn.net/qq_45647530/article/details/139346525

一、ROC和PR曲线定义

1.1 ROC曲线与AUROC

ROC曲线 [1], [2]（Receiver Operating Characteristic Curve，接收者操作特征曲线）是一种用于评估二分类模型性能的重要工具。ROC曲线通过不同阈值下的真阳性率（True Positive Rate, TPR）和假阳性率（False Positive Rate, FPR）的变化情况，直观地展示模型的分类能力。具体而言，ROC曲线的横轴表示假阳性率，纵轴表示真阳性率。假阳性率是指将负样本错误地分类为正样本的比例，而真阳性率是指将正样本正确地分类为正样本的比例。通过调整分类阈值，可以得到一系列不同的假阳性率和真阳性率，从而绘制出ROC曲线。

$\text{TPR} = \frac{\text{TP}}{\text{TP} + \text{FN}}，\text{FPR} = \frac{\text{FP}}{\text{TN} + \text{FP}}$
其中，TP为真阳性，TN为真阴性，FN为假阴性，FP为假阳性。

一个理想的分类器应该在ROC曲线上尽可能接近左上角，即假阳性率为0，真阳性率为1。ROC曲线下的面积（AUROC, Area Under ROC）是衡量分类器性能的一个重要指标， AUROC （或称AUC）的值介于0和1之间。AUROC值越接近1，说明分类器的性能越好；值为0.5时，说明分类器的表现与随机猜测相当。AUROC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。

在实际应用中，ROC曲线和AUC可以帮助我们选择最合适的分类阈值，比较不同分类器的性能，并判断模型是否具有较高的鉴别能力。

1.2 PR曲线与AUPRC

PR曲线 [3], [4]（Precision-Recall Curve，精确率-召回率曲线）是另一种用于评估二分类模型性能的工具，特别适用于数据不平衡的情况。PR曲线通过展示不同阈值下的精确率（Precision）和召回率（Recall），帮助评估模型在识别少数类样本时的表现。具体而言，PR曲线的横轴表示召回率，纵轴表示精确率：