【目标检测】什么是mAP?如计算模型的mAP？(mAP的相关概念以及求法）

最新推荐文章于 2025-03-19 09:58:22 发布

Seeklhy

最新推荐文章于 2025-03-19 09:58:22 发布

阅读量7.2k

点赞数 9

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_41427568/article/details/105733838

版权

深度学习专栏收录该内容

4 篇文章

订阅专栏

文章目录

什么是mAP
相关概念
如何得到PR曲线
如何计算AP以及mAP
详细步骤分析

什么是mAP

mAP（mean Average Precision 平均精度），是一个经常被用来衡量目标检测模型是否具有较好性能的指标。

如何得到PR曲线

从以上定义中可以得到，score threshold影响着每个类别中TP,FP,FN的数量，从而影响了precision和recall的计算结果。那么threshold到底是怎么影响precision和recall的呢？我们用知乎上一个例子来理解：

1、如果score threshold太高，模型认为是鸭子的物体基本上都是真的鸭子，precision就高了；但也因为筛选太严格，我们也放过了一些score比较低的预测框，但是可能这个框中的物体确实是鸭子，所以recall就低了。
2、如果score threshold太低，那么任何物体都会被当成鸭子，比如说兔子，鸡，鹅都被当作是鸭子，那么precision就会很低， recall就会很高（recall高是因为他几乎把所有鸭子、鸡、鹅、兔子都当作鸭子，所以对于鸭子这一类别的TP值就很大）。

这样我们就明确了score threshold确实对物体的precision和recall产生影响和变化的趋势，也就带来了思考， precision不是一个绝对的东西，而是相对score threshold而改变的东西， recall同理，那么单个用precision来作为标准判断，就不合适。这是一场precision与recall之间的平衡，用一组固定值表述不够全面，因为我们根据不同的score threshold，可以算出不同（也可能相同）的precision、recall值。这样的话，对于每个score threshold，我们都有（recall，precision）的对应关系，将所有score threshold得到的（recall，precision）点按照recall值的大小从小到大依次连在一起，也就有了recall和precision之间的curve关系，这个curve关系就是PR曲线。

以上部分内容转载自知乎陳子豪的回答，十分感谢陳子豪的分享，侵删

综上，想得到PR曲线，必须通过改变score threshold的大小，从而得到一系列（recall，precision）点。但是在实际操作中，不需要手动设置score threshold的值，因为模型输出的每个预测框（这些预测框一般都是经过NMS处理的，保证每张图片里面不会有过多的框，因为过多的框是会降低AP的）都有一个score，我们只需要将其从小到大排序，然后依次从小到大选择这些score作为score threshold即可，这样保证了随着阈值的增大，筛选出的预测框总数会一直减小。

注意，可能存在一个recall值下有多个precision值的情况。这是因为随着score threshold的增大，TP有时候会保持不变，有时候会变小。具体分析过程如下，当增大score threshold时，可能TP不变，也可能TP变小，GT数量是一直不变的，但通过score threshold筛选出的预测框数量一直在变小，当TP不变时，Recall是不变的，Precision会增大，那么就会出现同一组Recall对应了多组Precision的情况。在计算AP的时候，对于每一个recall，我们只使用这个recall对应的最大准确率（最大precision值），详细计算过程请看下文。

如何计算AP以及mAP

现在已经得到了PR曲线，
先看一下AP的计算，以2010年为界，有两种不同的计算方法，现在更常用的是第二种：
在这里插入图片描述
以上图片来自于：准确率、召回率和mAP、AP50/75，这篇文章讲的十分清楚，侵删。

这里我稍微解释一下第二种计算方法，其实这里用了微积分的知识，当这一类的GT框特别多时，即m非常大的时候，1/m就很小，根据微积分的定义，前面几项相加即为PR曲线的积分，也就是PR曲线下的面积。

这样我们对所有类别都计算出对应的AP，再求平均值，就得到了在某个固定的IoU threshold下，模型的平均精度（mAP）值。比如说IoU threshold=0.5时，这样计算出的mAP称为 $mAP_{50}$ ，更进一步，根据COCO数据集的规定，在COCO数据集上将 $mAP_{xx}$ 简称为 $AP_{xx}$ ，这时候 $mAP_{50}$ 就等同与 $AP_{50}$ 。然后将IoU threshold分别取0.5,0.55,0.6 … ,0.9,0.95(用切片表示的话是这样：0.5:0.95:0.05)时得到的10个mAP的平均值称为 $A P$ ，这也是MS COCO数据集对模型评判的主要参考指标。
这是yolov4在COCO数据集上的检测结果：
在这里插入图片描述

详细步骤分析

1、首先选择某类物体，计算它的平均精度AP，例如计算汽车这类物体的AP。
2、从网络的原始输出中筛选出对所有分类结果是汽车的预测框，将这些预测框保存下来，记录为BBox1。
3、对BBox1中所有框进行一次非极大值抑制(NMS)，剩余的所有框记录为BBox2。关于非极大值抑制的讲解链接：NMS——非极大值抑制
3、将BBox2中所有框的confidence（置信度）从小到大排序，排序过程中去除重复值，得到confidence_list，然后从confidence_list中依次从小到大选择confidence作为score threshold进行第四步和第五步。这是个循环第四步与第五步的过程，直到所有confidence值都被选择过为止。
循环开始
for score_threshold in confidence_list:
4、使用score threshold对BBox2中的所有框进行筛选，只有confidence > score threshold的框才会被保存下来，说明这个框中存在汽车的概率比较大，我们将这一步保留下来的所有框记录为BBox3。
5、根据定义，计算BBox3中TP、FP、FN的值（在这一步中会用到IoU threshold来区分出TP和FP），从而计算出Recall（TP/(TP+FN)）和Precision（TP/(TP+FP)）的值。将这一步计算出的Recall和Precision值记录下来，用于第六步绘制PR曲线。
循环结束
6、经过第四步和第五步的不断循环，我们已经通过改变score threshold得到多组（Recall,Precision）点，将其绘制成一条PR曲线，根据公式计算曲线积分面积，即可得到汽车这个类别的平均精度AP。
7、如果模型需要检测出多种物体，则返回第二步计算其他物体的AP，最后得到所有物体的AP，再进行平均，得到模型的mAP。