PR curve, AP, mAP, AUC, f1-score ??

lyyiangang

已于 2022-10-10 11:26:44 修改

阅读量1.6k

点赞数

分类专栏：视觉算法文章标签：机器学习算法人工智能深度学习

于 2021-08-22 15:58:52 首次发布

本文链接：https://blog.csdn.net/lyyiangang/article/details/119830526

版权

视觉算法专栏收录该内容

39 篇文章 5 订阅

订阅专栏

不同检测网络的性能好坏我们经常使用AP来表示， AP越高表示网络的学习能力越好。那么什么是AP呢？ mAP又是什么？ AUC又是啥？这里简单做下汇总。

True positive(TP)
检测正确， iou>=threshold
False positive(FP)
检测错误， iou < threshold
False Negative(FN)
漏检，目标没有被检测到。
True Negative (TN)
意思为正确的漏检，也就是说，不是检测目标的地方没有被检测出来，对于检测网络来说，这个指标没有用。

有了以上基础，那么就有了precision和recall的概念。

Accuracy

accuracy = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN)
Precision
Recall

如果把Precision和Recall分别作为y和x，那么可以画在一张图上。

对于不同的detector可以画一个不同的曲线，那么怎么比较两个曲线哪个好呢？那么怎么用一个数字就能看出检测的好坏呢？这是就要考虑AUC（曲线下面积），对于PR曲线来说，曲线下的面积称为AP。
TPR和FPR

TPR和FPR计算参考上图
ROC 曲线

对于不同的阈值, 我们可以算出不同fp,tp等数值,对应的tpr和fpr也可以得到, 那么把tpr和fpr放在一个坐标系下可以画出下面这张图, 曲线下的面积可以表示出一个模型的性能好坏. 在这里插入图片描述

实现代码可以参考sklearn.metrics.roc_curve.

AP计算

下面开始尝试手动计算AP，对于一个数据集图片总数为5, 总gt bbox个数有15个，用红框表示预测框，绿色表示gt框。如下图：
在这里插入图片描述
下面将所有检测框分类为tp和fp，分类的标准是IOU > threshold, 比如上面的AP50，指的就是这个threshold=50%. 这个例子中，我们使用threshold=30%, 也就是说iou>30%就认为是tp。但是也有一个特例，比如一个gt box有多个预测框与其iou都大于30%，那么只有第一个预测框为tp，剩下的都是fp(参考了VOC 2012 metric计算要求)。按照这么个规则区分tp和fp，我们可以得到下面一个表格。
在这里插入图片描述
接下来按照confidence排序，则有：

可以看出precision和recall递减，一个递增，画出来如下：

至此，我们就得到了一个PR curve，这种犬牙交错的曲线算AP有两种方法。11点插值法 和 所有点插值法