机器学习--PR和ROC曲线

最新推荐文章于 2023-10-23 21:36:24 发布

LWLdexiaotuzi

最新推荐文章于 2023-10-23 21:36:24 发布

阅读量155

点赞数

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/LWLdexiaotuzi/article/details/133998816

版权

本文介绍了PR曲线和ROC曲线的概念，它们用于比较二分类模型的性能，通过准确率、召回率和相关指标如AUC值、F1分数来评估。还提供了绘制PR曲线的代码示例，并强调了数据集划分、模型选择和曲线解读的重要性。

摘要由CSDN通过智能技术生成

一、什么时PR曲线

要知道什么是P-R曲线，首先，我们要先了解P和R分别代表什么意思。
“P”是“precision”，代表准确率。
“R”是“recall”，代表召回率。
而要计算准确率和召回率，我们要先了解一下混淆矩阵。

实际 \ 预测   负   正
负   TN   FP
正   FN   TP
TP（true positive）:实际为正例，预测为正例；
FN（false negative）：实际为正例，预测为负例；
TN（true negative）：实际为负例，预测为负例；
FP（false positive）：实际为负例，预测为正例。

了解了混淆矩阵，我们就可以通过混淆矩阵计算准确率和召回率。
准确率：precision = TP / (TP + FP)
召回率：recall = TP / (TP + FN)

以西瓜为例，准确率可以理解为被预测为好瓜的西瓜中确实是好瓜的概率，而召回率可以理解为所有的好瓜中被预测为好瓜的概率。
知道了准确率和召回率的计算方法，我们就可以开始着手绘制P-R曲线了。
以召回率(recall)为横轴，以准确率(precision)为竖轴，绘制而成的曲线就为P-R曲线了。

二、什么是ROC曲线？

ROC （Receiver Operating Characteristic Curve）：受试者工作特征。
类似P-R曲线，根据学习器的预测结果（概率）对样例排序，并逐个作为正例进行预测，以“假正例率(False Positive)”为横轴，“真正例率(True Positive)”为纵轴可得到ROC曲线。

三、P-R曲线与ROC曲线有什么用？

我们可以利用曲线来比较不同二分类模型之间性能的优劣。

主要有三种方法：
1.用曲线与坐标轴围成的面积作比较，这个面积也叫AUG值，我们一般认为AUG值大的模型性能更优。

2.取出P=R的值作为平衡点，我们一般认为平衡点大的模型性能更优。

3.计算F1= 2 * P * R / (P + R)，F1值越大的模型越稳定。

四、绘制P-R曲线代码

import matplotlib.pyplot as plt
import numpy as np

if __name__=='__main__':
    TP=np.array([5,4,4,4,4,3,3,2,2,1])
    FN=np.array([0,1,1,1,1,2,2,3,3,4])
    FP=np.array([5,2,2,0,0,0,0,0,0,0])
    P=TP/(TP+FP)
    R=TP/(TP+FN)
    plt.plot(R, P)
    plt.xlabel('Recall')
    plt.ylabel('Precision')
    plt.title('P-R')
    plt.show()