目标检测模型的评估指标mAP详解(附代码）

最新推荐文章于 2024-08-22 10:20:59 发布

看不见我呀

最新推荐文章于 2024-08-22 10:20:59 发布

阅读量1.7k

点赞数

分类专栏：目标检测

原文链接：https://zhuanlan.zhihu.com/p/37910324

版权

目标检测专栏收录该内容

15 篇文章 2 订阅

订阅专栏

https://zhuanlan.zhihu.com/p/37910324

对于使用机器学习解决的大多数常见问题，通常有多种可用的模型。每个模型都有自己的独特之处，并随因素变化而表现不同。

每个模型在“验证/测试”数据集上来评估性能，性能衡量使用各种统计量如准确度（accuracy），精度（precision），召回率（recall）等。选择的统计量通常针对特定应用场景和用例。对于每个应用场景，选择一个能够客观比较模型的度量指标非常重要。

这篇文章将介绍目标检测（Object Detection）问题中的最常用评估指标-Mean Average Precision，即mAP。

大多数时候，这些指标很容易理解和计算。例如，在二元分类中，精确度和召回率是一个一个简单直观的统计量。然而，目标检测是一个非常不同且有趣的问题。即使你的目标检测器在图片中检测到猫，但如果你无法定位，它也没有用处。由于你要预测的是图像中各个物体是否出现及其位置，如何计算mAP将非常有趣。

在讲解mAP之前，我们先定义目标检测问题。

目标检测问题

在目标检测问题中，给定一个图像，找到它所包含的物体，找到它们的位置并对它们进行分类。目标检测模型通常是在一组特定的类集合上进行训练的，所以模型只会定位和分类图像中的那些类。另外，对象的位置通常采用矩形边界框表示。因此，目标检测涉及图像中物体的定位和分类。

图1 几个常见的计算机视觉问题（来自Stanford’s CS231n）

下面所述的Mean Average Precision特别适用于同时预测物体位置及类别的算法。因此，从图1可以看出，它对评估定位模型、目标检测模型和分割模型非常有用。

评估目标检测模型

为什么是mAP?

目标检测问题中的每个图片都可能包含一些不同类别的物体。如前所述，需要评估模型的物体分类和定位性能。因此，用于图像分类问题的标准指标precision不能直接应用于此。这就是为什么需要mAP。我希望读完这篇文章后，你将能够理解它的含义。

关于Ground Truth

对于任何算法，评估指标需要知道ground truth（真实标签）数据。我们只知道训练、验证和测试数据集的ground truth。对于目标检测问题，ground truth包括图像中物体的类别以及该图像中每个物体的真实边界框。

Ground truth可视化

这里给出了一个实际图片（jpg、png等格式），以及相应的文本注释（边界框坐标 [公式] 和类别），如图中红色框以及文本标签所示。

对于这个特殊例子，模型在训练时需要原始的图片：

原始图片

以及ground truth的3个坐标及类别（这里假定图片大小是1000x800px，所有的坐标值都是以像素为单位的近似值）：

下面让我们动一下手，去看如何计算mAP。这里我们不谈论不同的目标检测算法，假定我们已经有了一个训练好的模型，现在只需要在验证集上评估其性能。

mAP含义及计算

前面展示了原始图像和以及对应的ground truth。训练集和验证集中所有图像都以此方式标注。

训练好的目标检测模型会给出大量的预测结果，但是其中大多数的预测值都会有非常低的置信度（confidence score），因此我们只考虑那些置信度高于某个阈值的预测结果。

将原始图片送入训练好的模型，在经过置信度阈值筛选之后，目标检测算法给出带有边界框的预测结果：

模型的预测结果

现在，由于我们人类是目标检测专家，我们可以知道这些检测结果大致正确。但我们如何量化呢？我们首先需要判断每个检测的正确性。这里采用IoU（Intersection over Union），它可以作为评价边界框正确性的度量指标。这是一个非常简单的指标。从名称看，有些人会发现这个名字是自解释的，但我们需要更好的解释。这里会以简短的方式解释IoU，如果想深入理解，可以参考Adrian Rosebrock的这篇文章(Intersection over Union (IoU) for object detection)。

IoU

IoU是预测框与ground truth的交集和并集的比值。这个量也被称为Jaccard指数，并于20世纪初由Paul Jaccard首次提出。为了得到交集和并集，我们首先将预测框与ground truth放在一起，如图所示。

预测框与ground truth（这里只给出horse）

对于每个类，预测框和ground truth重叠的区域是交集，而横跨的总区域就是并集。其中horse类的交集和并集如下图所示（这个例子交集比较大）：

其中蓝绿色部分是交集，而并集还包括橘色的部分。那么，IoU可以如下计算：

图片启发自 pyimagesearch，后者启发自University of Pittsburg’s CS1699课程

鉴别正确的检测结果并计算precision和recall

为了计算precision和recall，与所有机器学习问题一样，我们必须鉴别出True Positives（真正例）、False Positives（假正例）、True Negatives（真负例）和 False Negatives（假负例）。

为了获得True Positives and False Positives，我们需要使用IoU。计算IoU，我们从而确定一个检测结果（Positive）是正确的（True）还是错误的（False）。最常用的阈值是0.5，即如果IoU> 0.5，则认为它是True Positive，否则认为是False Positive。而COCO数据集的评估指标建议对不同的IoU阈值进行计算，但为简单起见，我们这里仅讨论一个阈值0.5，这是PASCAL VOC数据集所用的指标。

为了计算Recall，我们需要Negatives的数量。由于图片中我们没有预测到物体的每个部分都被视为Negative，因此计算True Negatives比较难办。但是我们可以只计算False Negatives，即我们模型所漏检的物体。

另外一个需要考虑的因素是模型所给出的各个检测结果的置信度。通过改变置信度阈值，我们可以改变一个预测框是Positive还是 Negative，即改变预测值的正负性(不是box的真实正负性，是预测正负性)。基本上，阈值以上的所有预测（Box + Class）都被认为是Positives，并且低于该值的都是Negatives。

对于每一个图片，ground truth数据会给出该图片中各个类别的实际物体数量。我们可以计算每个Positive预测框与ground truth的IoU值，并取最大的IoU值，认为该预测框检测到了那个IoU最大的ground truth。然后根据IoU阈值，我们可以计算出一张图片中各个类别的正确检测值（True Positives, TP）数量以及错误检测值数量（False Positives, FP）。据此，可以计算出各个类别的precision：

既然我们已经得到了正确的预测值数量（True Positives），也很容易计算出漏检的物体数（False Negatives, FN）。据此可以计算出Recall（其实分母可以用ground truth总数）：

计算mAP

mAP这个术语有不同的定义。此度量指标通常用于信息检索和目标检测领域。然而这两个领域计算mAP的方式却不相同。这里我们只谈论目标检测中的mAP计算方法。

在目标检测中，mAP的定义首先出现在PASCAL Visual Objects Classes(VOC)竞赛中，这个大赛包含许多图像处理任务，详情可以参考这个paper（里面包含各个比赛的介绍以及评估等）。

前面我们已经讲述了如何计算Precision和Recall，但是，正如前面所述，至少有两个变量会影响Precision和Recall，即IoU和置信度阈值。IoU是一个简单的几何度量，可以很容易标准化，比如在PASCAL VOC竞赛中采用的IoU阈值为0.5，而COCO竞赛中在计算mAP较复杂，其计算了一系列IoU阈值（0.05至0.95）下的mAP。但是置信度却在不同模型会差异较大，可能在我的模型中置信度采用0.5却等价于在其它模型中采用0.8置信度，这会导致precision-recall曲线变化。为此，PASCAL VOC组织者想到了一种方法来解决这个问题，即要采用一种可以用于任何模型的评估指标。在paper中，他们推荐使用如下方式计算Average Precision（AP）：

For a given task and class, the precision/recall curve is computed from a method’s ranked output. Recall is defined as the proportion of all positive examples ranked above a given rank. Precision is the proportion of all examples above that rank which are from the positive class. The AP summarises the shape of the precision/recall curve, and is defined as the mean precision at a set of eleven equally spaced recall levels [0,0.1,...,1]:

可以看到，为了得到precision-recall曲线，首先要对模型预测结果进行排序（ranked output，按照各个预测值置信度降序排列）。那么给定一个rank，Recall和Precision仅在高于该rank值的预测结果中计算，改变rank值会改变recall值。这里共选择11个不同的recall（[0, 0.1, ..., 0.9, 1.0]），可以认为是选择了11个rank，由于按照置信度排序，所以实际上等于选择了11个不同的置信度阈值。那么，AP就定义为在这11个recall下precision的平均值，其可以表征整个precision-recall曲线（曲线下面积）。

另外，在计算precision时采用一种插值方法（interpolate）：

The precision at each recall level r is interpolated by taking the maximum precision measured for a method for which the corresponding recall exceeds r:
The intention in interpolating the precision/recall curve in this way is to reduce the impact of the “wiggles” in the precision/recall curve, caused by small variations in the ranking of examples.

及对于某个recall值r，precision值取所有recall>=r中的最大值（这样保证了p-r曲线是单调递减的，避免曲线出现摇摆）:

不过这里VOC数据集在2007年提出的mAP计算方法，而在2010之后却使用了所有数据点，而不是仅使用11个recall值来计算AP（详细参考这篇paper）：

Up until 2009 interpolated average precision (Salton and Mcgill 1986) was used to evaluate both classification and detection. However, from 2010 onwards the method of computing AP changed to use all data points rather than TREC-style sampling (which only sampled the monotonically decreasing curve at a fixed set of uniformly-spaced recall values 0, 0.1, 0.2,..., 1). The intention in interpolating the precision–recall curve was to reduce the impact of the ‘wiggles’ in the precision–recall curve, caused by small variations in the ranking of examples. However, the downside of this interpolation was that the evaluation was too crude to discriminate between the methods at low AP.

对于各个类别，分别按照上述方式计算AP，取所有类别的AP平均值就是mAP。这就是在目标检测问题中mAP的计算方法。可能有时会发生些许变化，如COCO数据集采用的计算方式更严格，其计算了不同IoU阈值和物体大小下的AP（详情参考COCO Detection Evaluation）。

当比较mAP值，记住以下要点：

mAP通常是在一个数据集上计算得到的。
虽然解释模型输出的绝对量化并不容易，但mAP作为一个相对较好的度量指标可以帮助我们。当我们在流行的公共数据集上计算这个度量时，该度量可以很容易地用来比较目标检测问题的新旧方法。
根据训练数据中各个类的分布情况，mAP值可能在某些类（具有良好的训练数据）非常高，而其他类（具有较少/不良数据）却比较低。所以你的mAP可能是中等的，但是你的模型可能对某些类非常好，对某些类非常不好。因此，建议在分析模型结果时查看各个类的AP值。这些值也许暗示你需要添加更多的训练样本

总结：

根据置信度进行排序；确定iou阈值，根据阈值确定TP和FP，求取P/R；置信度阈值变化，则R变化，P变化。

https://blog.csdn.net/Blateyang/article/details/81054881

目标检测中最常用的测评指标就是mAP(mean Average Precision)，但对其计算过程一直似懂非懂，没有完全弄清楚。在看过网上一些资料后，自以为弄清楚了，下面以倒叙的方式简单谈谈自己的理解，目的在于做个记录，如果有读者没看懂或者觉得博主理解有误，欢迎交流探讨。

要注意的一点是，按照上面的方法画出的PR曲线会存在抖动，如下图所示。

为了解决该问题，VOC采用了interpolated average precision方法，大致思路就是对上面的PR曲线进行平滑。VOC2007是按照下面的公式进行平滑的：

其中，
VOC2012则有所改变，不再是对召回率在[0,1]之间的均匀分布的11个点，而是对每个不同的recall值都计算一个ρinterp(r)ρinterp(r)，然后求平均，经过interpolate平滑后的PR曲线如下图所示。
关于VOC数据集的mAP计算过程的简单理解就是上面五点，有关mAP更详细的解释可以参考资料2，里面讲的很清楚。

参考资料：
1. 目标检测中的mAP是什么含义？ - Wentao MA的回答 - 知乎
2. https://github.com/rafaelpadilla/Object-Detection-Metrics(强烈推荐)
3. VOCevaldet.m
————————————————
版权声明：本文为CSDN博主「Blateyang」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Blateyang/article/details/81054881