机器学习--实现ROC,PR曲线

一.概述

在机器学习模型的评估中,ROC曲线和PR曲线是两个常用的工具。

二、两种曲线的介绍

2.1 ROC曲线:

ROC曲线是模型在不同阈值下的真正例率(TPR)和假正例率(FPR)绘制成曲线。

  1. TPR与FPR的计算:

    • 真正例率(TPR):在实际为正例的样本中,模型正确预测为正例的比率。 TPR=\frac{TP}{\left (TP+ FN \right )}

    • 假正例率(FPR):在实际为负例的样本中,模型错误预测为正例的比率。FPR=\frac{FP}{\left (FP+ TN \right )}

2.2 PR曲线:


PR曲线展示的是模型的查准率和召回率之间的关系。

  1. 查准率与召回率的计算:

    • 查准率(Precision):在模型预测为正例的样本中,实际为正例的比率。Precision=\frac{TP}{\left (TP+ FP \right )}
    • 召回率(Recall):在实际为正例的样本中,模型正确预测为正例的比率。 Recall=\frac{TP}{\left (TP+ FN \right )}

三、ROC与PR曲线的对比:

  1. ROC曲线的特点:

    • 优点:ROC曲线对真正例率和假正例率之间的变化相对不敏感,适和用在处理类别不平衡的数据集。
    • 缺点:当数据集中存在类别不平衡或大量负例样本时,ROC曲线给出评估结果不好。
  2. PR曲线的特点:

    • 优点:PR曲线对查准率和召回率之间的变化更为敏感,适和用于处理类别不平衡或关注错误分类成本较高的问题。
    • 缺点:当数据集中存在大量负例样本时,PR曲线给出的评估结果太差。

四.实现

4.1实现roc曲线的过程:

import numpy as np
import matplotlib.pyplot as plt
#准备一百个数据集
y_true = np.array([0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1,
                   0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1,
                   0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0,
                   1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1,
                   0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0])
y_score = np.array([0.21, 0.64, 0.82, 0.47, 0.73, 0.38, 0.91, 0.29, 0.68, 0.43,
                    0.33, 0.76, 0.79, 0.41, 0.88, 0.69, 0.37, 0.26, 0.48, 0.95,
                    0.4, 0.66, 0.75, 0.36, 0.84, 0.32, 0.71, 0.44, 0.3, 0.91,
                    0.95, 0.47, 0.78, 0.87, 0.39, 0.14, 0.21, 0.83, 0.3, 0.79,
                    0.37, 0.71, 0.26, 0.88, 0.31, 0.48, 0.66, 0.41, 0.24, 0.95,
                    0.72, 0.45, 0.79, 0.22, 0.92, 0.36, 0.78, 0.47, 0.69, 0.28,
                    0.81, 0.44, 0.84, 0.29, 0.75, 0.22, 0.89, 0.3, 0.31, 0.91,
                    0.21, 0.85, 0.33, 0.62, 0.36, 0.38, 0.66, 0.14, 0.79, 0.38,
                    0.92, 0.45, 0.75, 0.32, 0.67, 0.27, 0.82, 0.31, 0.28, 0.89,
                    0.33, 0.84, 0.26, 0.72, 0.21, 0.76])

# 计算真正率,假正率和
fpr, tpr, thresholds = roc_curve(y_true, y_score)
auc = roc_auc_score(y_true, y_score)
# 绘制ROC曲线
plt.plot(fpr, tpr, label='ROC curve (AUC = %0.2f)' % auc)
plt.plot([0, 1], [0, 1], 'k--') 

# 设置字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#结果
plt.xlabel('假正例率(FPR)')
plt.ylabel('真正例率(TPR)')
plt.title('ROC曲线')
plt.legend(loc='lower right')

plt.show()

结果及分析:

roc曲线越靠近左上角,模型性能越好;曲线越靠近45度对角线,则模型性能越差。

4.2 PR曲线实现的过程:

import numpy as np
import matplotlib.pyplot as plt
# 准备一百个数据集
y_true = np.array([0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1,
                   0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1,
                   0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0,
                   1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1,
                   0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0])
y_score = np.array([0.21, 0.64, 0.82, 0.47, 0.73, 0.38, 0.91, 0.29, 0.68, 0.43,
                    0.33, 0.76, 0.79, 0.41, 0.88, 0.69, 0.37, 0.26, 0.48, 0.95,
                    0.4, 0.66, 0.75, 0.36, 0.84, 0.32, 0.71, 0.44, 0.3, 0.91,
                    0.95, 0.47, 0.78, 0.87, 0.39, 0.14, 0.21, 0.83, 0.3, 0.79,
                    0.37, 0.71, 0.26, 0.88, 0.31, 0.48, 0.66, 0.41, 0.24, 0.95,
                    0.72, 0.45, 0.79, 0.22, 0.92, 0.36, 0.78, 0.47, 0.69, 0.28,
                    0.81, 0.44, 0.84, 0.29, 0.75, 0.22, 0.89, 0.3, 0.31, 0.91,
                    0.21, 0.85, 0.33, 0.62, 0.36, 0.38, 0.66, 0.14, 0.79, 0.38,
                    0.92, 0.45, 0.75, 0.32, 0.67, 0.27, 0.82, 0.31, 0.28, 0.89,
                    0.33, 0.84, 0.26, 0.72, 0.21, 0.76])

# 计算精确率和召回率
precision, recall, thresholds = precision_recall_curve(y_true, y_score)
# 计算平均准确率
average_precision = auc(recall, precision)
# PR曲线
plt.plot(recall, precision, label='PR curve (AP = %0.2f)' % average_precision)
plt.xlabel('召回率')
plt.ylabel('精度')
plt.title('PR曲线')
plt.legend(loc='lower left')
plt.show()

结果及分析:

PR曲线越靠近右上角,模型性能越好;曲线越靠近0纵轴,模型性能越差。

4.3 怎么样选择合适的ROC与PR曲线:

1.选择ROC曲线:

当关注的是模型在不同阈值下的整体分类性能,并且数据集存在类别不平衡或大量负例样本时,ROC曲线是较为合适的选择。

2.选择PR曲线:

当关注的是模型在不同阈值下的查准率和召回率之间的平衡,并且数据集存在类别不平衡或关注错误分类成本较高的情况下,PR曲线是较为合适的选择。

4.4.实现过程中出现的问题及解决方法

1.问题:这个错误是因为y_truey_score数据长度不一致。两个数组的长度必须相同 

 解决方法:让 y_true 和 y_score 数组的长度一致,确保每个观测样本都有对应的真实标签和预测概率值。

2.问题:这个错误是因为选取的数据太少了,没有代表性,使得上面两个roc曲线和pr曲线不是太能表示模型的性能。

解决方法:把数据集增多,我用了一百个数据集,结果就是上面的4.1和4.2的图像,很有代表性。

五.结论

通过本次实验,我了解到ROC曲线和PR曲线的思想,原理,实现方法,而且这两种曲线是常用的评估分类模型性能的指标,它们在机器学习领域具有广泛的应用。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值