prc曲线 sklearn_精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么？

最新推荐文章于 2023-02-26 20:28:01 发布

Wingdows

最新推荐文章于 2023-02-26 20:28:01 发布

阅读量488

点赞数

文章标签： prc曲线 sklearn

本文链接：https://blog.csdn.net/weixin_36221149/article/details/112028398

版权

本文详细介绍了PRC曲线、ROC曲线和AUC的概念，以及它们在分类模型评估中的作用。强调了ROC曲线如何无视样本不平衡问题，通过真阳性率（TPR）和假阳性率（FPR）来评估模型性能。同时，文章解释了精准率、召回率和F1分数，并提供了Python实现示例，帮助读者深入理解这些指标。

摘要由CSDN通过智能技术生成

前面各位大神总结的都非常的好，也说一下自己的总结和理解。

ROC/AUC作为机器学习的评估指标非常重要，也是面试中经常出现的问题(80%都会问到)。其实，理解它并不是非常难，但是好多朋友都遇到了一个相同的问题，那就是：每次看书的时候都很明白，但回过头就忘了，经常容易将概念弄混。还有的朋友面试之前背下来了，但是一紧张大脑一片空白全忘了，导致回答的很差。

我在之前的面试过程中也遇到过类似的问题，我的面试经验是：一般笔试题遇到选择题基本都会考这个率，那个率，或者给一个场景让你选用哪个。面试过程中也被问过很多次，比如什么是AUC/ROC？横轴纵轴都代表什么？有什么优点？为什么要使用它？

我记得在我第一次回答的时候，我将准确率，精准率，召回率等概念混淆了，最后一团乱。回去以后我从头到尾梳理了一遍所有相关概念，后面的面试基本都回答地很好。现在想将自己的一些理解分享给大家，希望读完本篇可以彻底记住ROC/AUC的概念。

▌什么是性能度量？

我们都知道机器学习要建模，但是对于模型性能的好坏(即模型的泛化能力)，我们并不知道是怎样的，很可能这个模型就是一个差的模型，泛化能力弱，对测试集不能很好的预测或分类。那么如何知道这个模型是好是坏呢？我们必须有个评判的标准。为了了解模型的泛化能力，我们需要用某个指标来衡量，这就是性能度量的意义。有了一个指标，我们就可以对比不同模型了，从而知道哪个模型相对好，那个模型相对差，并通过这个指标来进一步调参逐步优化我们的模型。

当然，对于分类和回归两类监督学习，分别有各自的评判标准。本篇我们主要讨论与分类相关的一些指标，因为AUC/ROC就是用于分类的性能度量标准。

▌混淆矩阵，准确率，精准率，召回率

1. 混淆矩阵

在介绍各个率之前，先来介绍一下混淆矩阵。如果我们用的是个二分类的模型，那么把预测情况与实际情况的所有结果两两混合，结果就会出现以下4种情况，就组成了混淆矩阵。

由于1和0是数字，阅读性不好，所以我们分别用P和N表示1和0两种结果。变换之后为PP，PN，NP，NN，阅读性也很差，我并不能轻易地看出来预测的正确性与否。因此，为了能够更清楚地分辨各种预测情况是否正确，我们将其中一个符号修改为T和F，以便于分辨出结果。

P(Positive)：代表1

N(Negative)：代表0

T(True)：代表预测正确

F(False)：代表错误

按照上面的字符表示重新分配矩