PR曲线和ROC曲线

最新推荐文章于 2024-10-09 23:54:44 发布

栀39

最新推荐文章于 2024-10-09 23:54:44 发布

阅读量46

点赞数

文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/qq_61134803/article/details/133984085

版权

本文介绍了二分类问题的基本概念，包括正例和负例的定义，以及精确度和召回率这两个关键性能指标。文章详细讲解了PR曲线和ROC曲线的原理，并通过实例展示了如何使用Python和sklearn库计算和绘制这两种曲线来评估模型性能。

摘要由CSDN通过智能技术生成

1. 二分类问题的基础：

2. 精确度（Precision）和召回率（Recall）：

3.PR曲线（Precision-Recall Curve）：

4.ROC曲线（Receiver Operating Characteristic Curve）：

5.实例

1. 二分类问题的基础：

在二分类问题中，模型的任务是根据输入数据点将其分为正例或负例，以便进行分类、识别或预测。通常，正例和负例之间的比例可以不平衡，因此需要使用适当的性能指标来评估模型的性能，如精确度、召回率、PR曲线和ROC曲线。这些指标和工具有助于量化模型在不同类别上的性能表现。

在机器学习和统计学中，二分类问题是一种常见的问题，也被称为二元分类或双分类问题。它是一种监督学习任务，其中算法的任务是将输入数据点分为两个互斥的类别，通常被称为正例（Positive）和负例（Negative）。

2. 正例和负例的概念：
正例（Positive）：在二分类问题中，正例是指我们感兴趣的目标类别或事件。这通常是我们希望模型识别或预测的类别。例如，在医学诊断中，正例可以是患有疾病的患者。
负例（Negative）：负例是指不属于我们感兴趣的目标类别或事件的类别。它表示不发生或不感兴趣的情况。在医学诊断中，负例可以是健康的患者，即没有疾病的患者。

2. 精确度（Precision）和召回率（Recall）：

精确度和召回率是用于评估分类模型性能的两个关键指标，尤其在二分类问题中。

精确度（Precision） 表示模型正确预测为正例的样本数量占所有预测为正例的样本数量的比例。它的定义如下：

Precision=True Positives (TP)True Positives (TP)+False Positives (FP)Precision=True Positives (TP)+False Positives (FP)True Positives (TP)

True Positives (TP)：真正例，表示模型正确预测为正例的样本数量。
False Positives (FP)：假正例，表示模型错误地将负例样本预测为正例的样本数量。

召回率（Recall） 表示模型正确预测为正例的样本数量占所有实际正例的样本数量的比例。它的定义如下：

Recall=True Positives (TP)True Positives (TP)+False Negatives (FN)Recall=True Positives (TP)+False Negatives (FN)True Positives (TP)

False Negatives (FN)：假负例，表示模型错误地将正例样本预测为负例的样本数量。

3.PR曲线（Precision-Recall Curve）：

基本概念：

PR曲线是用于评估分类模型在正例类别上的性能的图形工具。
PR曲线的两个主要指标是精确度（Precision）和召回率（Recall）。
精确度是指分类器正确预测为正例的样本数量占所有预测为正例的样本数量的比例。公式：Precision = TP / (TP + FP)（TP：真正例，FP：假正例）。
召回率是指分类器正确预测为正例的样本数量占所有实际正例的样本数量的比例。公式：Recall = TP / (TP + FN)（FN：假负例）。

4.ROC曲线（Receiver Operating Characteristic Curve）：

基本概念：

ROC曲线是用于评估分类模型的整体性能，特别是在正例和负例之间的权衡。
ROC曲线的两个主要指标是真正例率（True Positive Rate，召回率）和假正例率（False Positive Rate）。
真正例率是指分类器正确预测为正例的样本数量占所有实际正例的样本数量的比例。公式：TPR = TP / (TP + FN)。
假正例率是指分类器错误预测为正例的负例样本数量占所有实际负例的样本数量的比例。公式：FPR = FP / (FP + TN)（FP：假正例，TN：真负例）。

PR曲线（Precision-Recall Curve）和ROC曲线（Receiver Operating Characteristic Curve）是用于评估二分类机器学习模型性能的两种不同图形工具，它们各自关注不同的性能方面。

5.实例

以下是演示如何计算和绘制PR曲线与ROC曲线

import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import precision_recall_curve, auc

# 创建一个模拟数据集
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 使用随机森林分类器
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

# 预测概率值
y_pred_proba = clf.predict_proba(X_test)[:, 1]

# 计算精确度和召回率
precision, recall, _ = precision_recall_curve(y_test, y_pred_proba)

# 计算AUC值
pr_auc = auc(recall, precision)

# 绘制PR曲线图像
plt.figure()
plt.plot(recall, precision, marker='o', linestyle='-')
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall Curve (AUC={:.2f})'.format(pr_auc))
plt.grid(True)
plt.show()

import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_curve, auc

# 创建一个模拟数据集
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 使用随机森林分类器
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

# 预测概率值
y_pred_proba = clf.predict_proba(X_test)[:, 1]

# 计算ROC曲线
fpr, tpr, _ = roc_curve(y_test, y_pred_proba)

# 计算AUC值
roc_auc = auc(fpr, tpr)

# 绘制ROC曲线图像
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (AUC={:.2f})'.format(roc_auc))
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlabel('False Positive Rate (FPR)')
plt.ylabel('True Positive Rate (TPR)')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc="lower right")
plt.grid(True)
plt.show()