PR曲线、ROC曲线的原理以及在python的实现

最新推荐文章于 2024-04-15 22:22:38 发布

三·七

最新推荐文章于 2024-04-15 22:22:38 发布

阅读量809

点赞数

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_64337860/article/details/133969477

版权

一、PR曲线

1.1PR曲线的原理

PR曲线（Precision-Recall Curve）是一种常用的分类模型评估工具，用于衡量二元分类模型的性能。PR曲线的横坐标为召回率（Recall），纵坐标为查准率（Precision）。

召回率是指所有真实正例中被模型正确预测为正例的比例，计算公式为：Recall=TP/(FN+TP)。

查准率是指查准率是指所有被模型预测为正例的样本中真正为正例的比例，计算公式为：Precision=TP/(FP+TP)。其中，TP 代表真正例，FP 代表假正例，FN 代表假反例。

举一个简单的例子：

假设我们有一个样本，其中有10个人，5个人患有某种疾病，5个人没有。现在我们使用一种新的检测方法来检测这种疾病，结果如下表所示：

实际情况	检测结果
患病	患病
患病	患病
患病	患病
患病	未患病
患病	未患病
未患病	患病
未患病	未患病
未患病	未患病
未患病	未患病
未患病	未患病

其中，实际情况中的“患病”表示该人真正患有该种疾病，“未患病”表示该人没有该种疾病；检测结果中的“患病”表示该人被检测出来为有该种疾病，“未患病”表示该人被检测出来为没有该种疾病。

根据上表，我们可以得到以下数据：

TP（True Positive）：3，即实际情况为“患病”，并且被检测出来为“患病”的人数。
FP（False Positive）：2，即实际情况为“未患病”，但被检测出来为“患病”的人数。
TN（True Negative）：3，即实际情况为“未患病”，并且被检测出来为“未患病”的人数。
FN（False Negative）：2，即实际情况为“患病”，但被检测出来为“未患病”的人数。

召回率（Recall）是指所有真实正例中被模型正确预测为正例的比例。在这个例子中，召回率等于TP/(TP+FN)=3/(3+2)=0.6。

查准率（Precision）是指所有被模型预测为正例的样本中真正为正例的比例。在这个例子中，查准率等于TP/(TP+FP)=3/(3+2)=0.6。

因此，在这个例子中，召回率和查准率都是0.6。这意味着我们的模型能够正确地识别出60%的真实正例，并且在所有预测为正例的样本中有60%是真正的正例。

1.2 PR曲线的绘制（python实现）

import numpy as np
from sklearn.metrics import precision_recall_curve
import matplotlib.pyplot as plt

# 生成随机数据集
y_true = np.random.randint(0, 2, size=1000)
y_scores = np.random.rand(1000)

# 计算PR曲线的值

TP = np.cumsum(y_true == 1 )
FP = np.cumsum(y_true == 0 )
precision = TP/(TP+FP)
recall = TP/np.sum(y_true)
 


# 绘制PR曲线
plt.plot(recall, precision)
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('PR Curve')
plt.show()

运行结果：

二、ROC曲线

2.1 ROC曲线的原理

ROC曲线（受试者工作特征曲线）是一种坐标图式的分析工具，用于选择最佳的信号检测模型、捨棄次佳的模型或者在同一模型中设定最佳阈值。

ROC曲线以两个重要的性能指标为基础：真正例率（True Positive Rate, TPR）和假正例率（False Positive Rate, FPR）。

真正例率（True Positive Rate，TPR）是指在所有实际为正例的样本中，被模型正确预测为正例的比例，计算公式为：TPR=TP/(FN+TP)。

假正例率（False Positive Rate，FPR）是指在所有实际为负例的样本中，被模型错误地预测为正例的比例，计算公式为：FPR=FP/(TN+FP)。

其中，FP 表示假正例（False Positive）的样本数，即被分类器错误地预测为正例的样本数；TN 表示真负例（True Negative）的样本数，即被分类器正确预测为负例的样本数,FN 表示假反例（False Negative）的样本数，即被分类器错误地预测为负例的样本数。

同样地，我们再以上面的例子作为

实际情况	检测结果
患病	患病
患病	患病
患病	患病
患病	未患病
患病	未患病
未患病	患病
未患病	未患病
未患病	未患病
未患病	未患病
未患病	未患病

根据该表格，我们能得到：

TP（True Positive）：3，即实际情况为“患病”，并且被检测出来为“患病”的人数。
FP（False Positive）：2，即实际情况为“未患病”，但被检测出来为“患病”的人数。
TN（True Negative）：3，即实际情况为“未患病”，并且被检测出来为“未患病”的人数。
FN（False Negative）：2，即实际情况为“患病”，但被检测出来为“未患病”的人数。

真正例率（True Positive Rate，TPR）：TPR=TP/(FN+TP)=3/(2+3)=0.6

假正例率（False Positive Rate，FPR）：FPR=FP/(TN+FP)=2/(3+2)=0.4

2.1 ROC曲线的实现

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, roc_auc_score
import matplotlib.pyplot as plt

#生成随机数据集
X, y = make_classification(n_samples=1000, n_classes=2, random_state=42)

#将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

#训练逻辑回归模型
logreg = LogisticRegression()
logreg.fit(X_train, y_train)

#预测测试集的概率
y_pred_proba = logreg.predict_proba(X_test)[:, 1]

#计算ROC曲线和AUC评分
fpr, tpr, thresholds = roc_curve(y_test, y_pred_proba)
roc_auc = roc_auc_score(y_test, y_pred_proba)

#绘制ROC曲线
plt.plot(fpr, tpr)
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title(f'ROC Curve (AUC={roc_auc:.2f})')
plt.show()

运行结果：

三、实验总结

ROC曲线和PR曲线都是评价分类模型的性能的常用工具。

ROC曲线（Receiver Operating Characteristic）以真正率(True Positive Rate)为纵坐标，假正率(False Positive Rate)为横坐标，描述了正负样本判定阈值的变化如何影响分类器的性能。ROC曲线可以直观地展示出不同阈值下分类器的性能，同时考虑到了真正率和假正率之间的平衡关系，适用于正负样本不平衡的情况。ROC曲线下面积(AUC)越大，分类器性能越好。

PR曲线（Precision-Recall Curve）以精度(Precision)为纵坐标，召回率(Recall)为横坐标，描述了在不同召回率下的精确度表现。PR曲线更加关注正例样本分类的准确性，因此在正负例样本不平衡或者负例样本很多时比ROC曲线更能反映分类器的性能，但是对于负例样本的正确识别能力则没有ROC曲线全面。PR曲线下面积(AP)可以认为是在各个召回率下的精确度的平均，也就是整个预测结果的平均质量。

一般来说，ROC曲线和PR曲线的选择要根据问题背景来确定。当正负样本比例相近时，可以优先采用ROC曲线；当正负样本不平衡时或者对于正例的判定更加重要时，可以优先采用PR曲线。同时，我们可以结合AUC和AP两个指标来进行综合评价。

三·七

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
PR曲线、ROC曲线的原理以及在python的实现

ROC曲线和PR曲线都是评价分类模型的性能的常用工具。ROC曲线（Receiver Operating Characteristic）以真正率(True Positive Rate)为纵坐标，假正率(False Positive Rate)为横坐标，描述了正负样本判定阈值的变化如何影响分类器的性能。ROC曲线可以直观地展示出不同阈值下分类器的性能，同时考虑到了真正率和假正率之间的平衡关系，适用于正负样本不平衡的情况。ROC曲线下面积(AUC)越大，分类器性能越好。
复制链接

扫一扫