目标检测中的MAP的计算(逐步推导)
概念介绍
首先放一下前面一篇博文中提到的precision和recall的计算公式和概念。
P(precision) = TP/(TP+FP) 在目标检测中就是检测出的所有框中预测正确的比例。
R(recall) = TP/(TP+FN) 在目标检测中就是所有的ground truth(不懂ground truth的自行百度,简单点就是你的训练数据中事先标注好的bboxes)中检测出来的部分所占的比例。
我们假设一个场景,一共有两张图片,有两个类别,一个类别是人一个类别是汽车。
假如图中有5个标注为汽车的ground truth, 那么你检测到的汽车有两个, 那么对于这张图, 汽车类的 recalls 就是 2/5。
假如图中有3个人的ground truth, 你检测到的也是三个框, 但是其中只有一个框检测吻合到你的ground truth,另外两个检测成人了, TP = 1, FP = 2, 那么precision 就是 1/3
TP和FP的求解
下面正式来定义我们的场景,还是用上面的场景!!!
我们的训练集只有两张
如果人label = 1, 汽车label=2, 下面直接用vector表示
1、第一张图label = [1, 1, 2, 1, 1] 也就是说有四个人一台车, 一共五个gr