机器学习--实现ROC,PR曲线

m0_63931079

已于 2023-10-23 21:08:03 修改

阅读量80

点赞数 1

文章标签：机器学习 python

于 2023-10-23 21:06:17 首次发布

本文链接：https://blog.csdn.net/m0_63931079/article/details/133984838

版权

一.概述

在机器学习模型的评估中，ROC曲线和PR曲线是两个常用的工具。

二、两种曲线的介绍

2.1 ROC曲线：

ROC曲线是模型在不同阈值下的真正例率（TPR）和假正例率（FPR）绘制成曲线。

TPR与FPR的计算：
- 真正例率（TPR）：在实际为正例的样本中，模型正确预测为正例的比率。 $TPR=\frac{TP}{\left (TP+ FN \right )}$
- 假正例率（FPR）：在实际为负例的样本中，模型错误预测为正例的比率。 $FPR=\frac{FP}{\left (FP+ TN \right )}$

2.2 PR曲线：

PR曲线展示的是模型的查准率和召回率之间的关系。

查准率与召回率的计算：
- 查准率（Precision）：在模型预测为正例的样本中，实际为正例的比率。 $Precision=\frac{TP}{\left (TP+ FP \right )}$
- 召回率（Recall）：在实际为正例的样本中，模型正确预测为正例的比率。 $Recall=\frac{TP}{\left (TP+ FN \right )}$

三、ROC与PR曲线的对比：

ROC曲线的特点：
- 优点：ROC曲线对真正例率和假正例率之间的变化相对不敏感，适和用在处理类别不平衡的数据集。
- 缺点：当数据集中存在类别不平衡或大量负例样本时，ROC曲线给出评估结果不好。
PR曲线的特点：
- 优点：PR曲线对查准率和召回率之间的变化更为敏感，适和用于处理类别不平衡或关注错误分类成本较高的问题。
- 缺点：当数据集中存在大量负例样本时，PR曲线给出的评估结果太差。

四.实现

4.1实现roc曲线的过程：

import numpy as np
import matplotlib.pyplot as plt
#准备一百个数据集
y_true = np.array([0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1,
                   0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1,
                   0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0,
                   1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1,
                   0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0])
y_score = np.array([0.21, 0.64, 0.82, 0.47, 0.73, 0.38, 0.91, 0.29, 0.68, 0.43,
                    0.33, 0.76, 0.79, 0.41, 0.88, 0.69, 0.37, 0.26, 0.48, 0.95,
                    0.4, 0.66, 0.75, 0.36, 0.84, 0.32, 0.71, 0.44, 0.3, 0.91,
                    0.95, 0.47, 0.78, 0.87, 0.39, 0.14, 0.21, 0.83, 0.3, 0.79,
                    0.37, 0.71, 0.26, 0.88, 0.31, 0.48, 0.66, 0.41, 0.24, 0.95,
                    0.72, 0.45, 0.79, 0.22, 0.92, 0.36, 0.78, 0.47, 0.69, 0.28,
                    0.81, 0.44, 0.84, 0.29, 0.75, 0.22, 0.89, 0.3, 0.31, 0.91,
                    0.21, 0.85, 0.33, 0.62, 0.36, 0.38, 0.66, 0.14, 0.79, 0.38,
                    0.92, 0.45, 0.75, 0.32, 0.67, 0.27, 0.82, 0.31, 0.28, 0.89,
                    0.33, 0.84, 0.26, 0.72, 0.21, 0.76])

# 计算真正率，假正率和
fpr, tpr, thresholds = roc_curve(y_true, y_score)
auc = roc_auc_score(y_true, y_score)
# 绘制ROC曲线
plt.plot(fpr, tpr, label='ROC curve (AUC = %0.2f)' % auc)
plt.plot([0, 1], [0, 1], 'k--') 

# 设置字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#结果
plt.xlabel('假正例率（FPR）')
plt.ylabel('真正例率（TPR）')
plt.title('ROC曲线')
plt.legend(loc='lower right')

plt.show()

结果及分析：

roc曲线越靠近左上角，模型性能越好；曲线越靠近45度对角线，则模型性能越差。

4.2 PR曲线实现的过程：

import numpy as np
import matplotlib.pyplot as plt
# 准备一百个数据集
y_true = np.array([0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1,
                   0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1,
                   0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0,
                   1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1,
                   0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0])
y_score = np.array([0.21, 0.64, 0.82, 0.47, 0.73, 0.38, 0.91, 0.29, 0.68, 0.43,
                    0.33, 0.76, 0.79, 0.41, 0.88, 0.69, 0.37, 0.26, 0.48, 0.95,
                    0.4, 0.66, 0.75, 0.36, 0.84, 0.32, 0.71, 0.44, 0.3, 0.91,
                    0.95, 0.47, 0.78, 0.87, 0.39, 0.14, 0.21, 0.83, 0.3, 0.79,
                    0.37, 0.71, 0.26, 0.88, 0.31, 0.48, 0.66, 0.41, 0.24, 0.95,
                    0.72, 0.45, 0.79, 0.22, 0.92, 0.36, 0.78, 0.47, 0.69, 0.28,
                    0.81, 0.44, 0.84, 0.29, 0.75, 0.22, 0.89, 0.3, 0.31, 0.91,
                    0.21, 0.85, 0.33, 0.62, 0.36, 0.38, 0.66, 0.14, 0.79, 0.38,
                    0.92, 0.45, 0.75, 0.32, 0.67, 0.27, 0.82, 0.31, 0.28, 0.89,
                    0.33, 0.84, 0.26, 0.72, 0.21, 0.76])

# 计算精确率和召回率
precision, recall, thresholds = precision_recall_curve(y_true, y_score)
# 计算平均准确率
average_precision = auc(recall, precision)
# PR曲线
plt.plot(recall, precision, label='PR curve (AP = %0.2f)' % average_precision)
plt.xlabel('召回率')
plt.ylabel('精度')
plt.title('PR曲线')
plt.legend(loc='lower left')
plt.show()

结果及分析:

PR曲线越靠近右上角，模型性能越好；曲线越靠近0纵轴，模型性能越差。

4.3 怎么样选择合适的ROC与PR曲线：

1.选择ROC曲线：

当关注的是模型在不同阈值下的整体分类性能，并且数据集存在类别不平衡或大量负例样本时，ROC曲线是较为合适的选择。

2.选择PR曲线：

当关注的是模型在不同阈值下的查准率和召回率之间的平衡，并且数据集存在类别不平衡或关注错误分类成本较高的情况下，PR曲线是较为合适的选择。

4.4.实现过程中出现的问题及解决方法

1.问题：这个错误是因为y_true和y_score数据长度不一致。两个数组的长度必须相同

解决方法：让 y_true 和 y_score 数组的长度一致，确保每个观测样本都有对应的真实标签和预测概率值。

2.问题：这个错误是因为选取的数据太少了，没有代表性，使得上面两个roc曲线和pr曲线不是太能表示模型的性能。

解决方法：把数据集增多，我用了一百个数据集，结果就是上面的4.1和4.2的图像，很有代表性。

五.结论

通过本次实验，我了解到ROC曲线和PR曲线的思想，原理，实现方法，而且这两种曲线是常用的评估分类模型性能的指标，它们在机器学习领域具有广泛的应用。

m0_63931079

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
机器学习--实现ROC,PR曲线

ROC曲线是模型在不同阈值下的真正例率（TPR）和假正例率（FPR）绘制成曲线。TPR与FPR的计算：真正例率（TPR）：在实际为正例的样本中，模型正确预测为正例的比率。假正例率（FPR）：在实际为负例的样本中，模型错误预测为正例的比率。
复制链接

扫一扫