一文讲清楚目标检测中mAP、AP、precison、recall、accuracy、TP、FP、FN、TN

虎大猫猫

已于 2023-08-11 17:23:22 修改

阅读量9.3k

点赞数 19

分类专栏：目标检测机器学习文章标签：机器学习计算机视觉

于 2021-01-28 11:17:49 首次发布

本文链接：https://blog.csdn.net/fengmaomao1991/article/details/113239127

版权

机器学习同时被 2 个专栏收录

3 篇文章

订阅专栏

目标检测

2 篇文章

订阅专栏

TP、FP、FN、TN
- 分类中TP、FP、FN、TN含义
- 目标检测中TP、FP、FN、TN的含义
precision 、recall 、accuracy
AP、mAP
- AP
- mAP
一个例子
- P-R曲线
思考

TP、FP、FN、TN

分类中TP、FP、FN、TN含义

首先理解下在机器学习分类中的含义：
TP（True Positive）：指正确分类的正样本数，即预测为正样本，实际也是正样本。
FP（False Positive）：指被错误的标记为正样本的负样本数，即实际为负样本而被预测为正样本。
TN（True Negative）：指正确分类的负样本数，即预测为负样本，实际也是负样本。
FN（False Negative）：指被错误的标记为负样本的正样本数，即实际为正样本而被预测为负样本。

由此可知：
样本总数：TP+FP+TN+FN 。
实际正样本数：TP+FN。
预测结果为正样本的总数（包括预测正确的和错误的）：TP+FP。
实际负样本数：FP+TN。
预测结果为负样本的总数（包括预测正确的和错误的）：TN+FN。
预测正确的样本数：TP+TN。
positive negative

目标检测中TP、FP、FN、TN的含义

目标检测中的每一个预测结果包含三部分，类别（class），预测框（bounding box）和置信概率（P confidence）。对应的还有真实的检测框，Ground Truth。

什么样的检测结果才叫正确？
1、类别正确
2、预测框（score、confidence）的置信度大于一定阈值
3、预测框与真实框的交并比IoU（Intersection Over Union）大于一定阈值
IoU
由此引入两个评价参数。
交并比阈值记为IoU_th，在VOC中一般取0.5（0.5意味着框与框大约有2/3交叉。）
置信度阈值记为confidence_th。

我们将confidence>confidence_th的检测框记为Positive。
TP：IoU>IoU_th 的检测框数量（同一 Ground Truth 只计算一次）。
FP：IoU<IoU_th的检测框数量，或者是检测到同一个 GT 的多余检测框的数量。
TN：（用不到这个概念）。
FN：没有检测到的 GT 的数量。

假设红色的框是Ground Truth，绿色的框是检测结果， IoU_th 、confidence_th均设为0.5：
这张图中的绿色框就是一个TP。

这张图中的绿色框IoU<IoU_th，所以它就是一个FP。
在这里插入图片描述
这张图中有两个检测框且IoU>IoU_th，那么置信度较高的那个就是TP，剩下的就是FP。
FP1
这张图虽然检测到了框，类别也正确，但是由于confidence<confidence_th，那么这里红色框就是一个FN。注意，FN是从Ground Truth中取，就是如果有n个类似这种的confidence<confidence_th的检测框，我们仍然记FN=1。
在这里插入图片描述

precision 、recall 、accuracy

这几个概念是从信息检索领域来的。

precision

precision = TP/(TP+FP)
个人认为翻译成查准率比较好。

recall

recall = TP/(TP+FN)
个人认为翻译成查全率或者召回率比较好。TP+FN其实就是所有的Ground Truth的数量。

accuracy

accuracy = (TP+TN)/(TP+FN+FP+TN)
在目标检测领域中一般不会用。

抽样范围

precision 和 recall 的抽取样本方式不同：recall是从数据集的同一标签的样本抽样；而precision是从已经预测为同一类别的样本抽样。

一个疑问

（在网上看到下面这张图，我不知道应该怎么理解。）
obj

AP、mAP

这两个概念都是为了衡量模型性能。

AP

AP( Average Precision )：衡量单类别的模型平均准确度。

mAP

mAP（mean Average Precision）
目标检测通常有多个类别，mAP是多个类别平均准度的综合度量，用来衡量模型性能。
简单来说把所有类的AP值取平均。比如有两类，类A的AP值是0.5，类B的AP值是0.2，那么mAP=（0.5+0.2）/2=0.35。

下面通过一个例子介绍AP的计算

一个例子

假如我们计算目标类别为Dog：
有5张Image，共包含7只Dog，也即GT（GroundTruth）数量为7。预测得到了Dog的10个预测结果，然后按confidence从高到低排序。
其中，BB表示BoundingBox，GT=1表示GT与预测的BoundingBox的IoU>=IoU_th，BoundingBox序号相同代表所对应的GT是同一个。
在衡量模型性能时，IoU_th一般取一个定值，然后综合考虑不同的confidence_th取值时的性能。

Index	BB	confidence	GT
1	BB1	0.91	1
2	BB2	0.83	1
3	BB1	0.75	1
4	BB3	0.56	0
5	BB4	0.49	0
6	BB5	0.46	1
7	BB6	0.35	0
8	BB7	0.23	0
9	BB8	0.18	1
10	BB9	0.09	1

如果设置confidence_th=0，所有的BoundingBox都是Positive。则有 TP=5 (BB1, BB2, BB5, BB8, BB9)，FP=5 (重复检测到的BB1也算FP)。除了表里检测到的5个GT以外，我们还有2个GT没被检测到， FN = 2。
precision = TP/(TP+FP) = 5/(5+5) = 0.5
recall = TP/(TP+FN) = 5/(1+6) = 5/7 = 0.71

Index	BB	confidence	GT	TP	FP	FN
1	BB1	0.91	1	Y	N
2	BB2	0.83	1	Y	N
3	BB1	0.75	1	Y	N
4	BB3	0.56	0	N	Y
5	BB4	0.49	0	N	Y
6	BB5	0.46	1	Y	N
7	BB6	0.35	0	N	Y
8	BB7	0.23	0	N	Y
9	BB8	0.18	1	Y	N
10	BB9	0.09	1	Y	N
合计				5	5	2

如果设置confidence_th=0.9，只有BB1为Positive，则有 TP=1 (BB1)，FP=0。我们还有6个GT没被检测到， FN = 6。
precision = TP/(TP+FP) = 1/(1+0) = 1
recall = TP/(TP+FN) = 1/(1+6) = 1/7 = 0.14

Index	BB	confidence	GT	TP	FP	FN
1	BB1	0.91	1	Y	N
2	BB2	0.83	1	N	N
3	BB1	0.75	1	N	N
4	BB3	0.56	0	N	N
5	BB4	0.49	0	N	N
6	BB5	0.46	1	N	N
7	BB6	0.35	0	N	N
8	BB7	0.23	0	N	N
9	BB8	0.18	1	N	N
10	BB9	0.09	1	N	N
合计				1	0	6

以此类推，设定不同的confidence_th（每次增加一个BoundingBox为Positive），然后计算对应的Precision和Recall。
Top1 confidence_th=0.9 precision=1.00 and recall=0.14
Top2 confidence_th=0.82 precision=1.00 and recall=0.29
Top3 confidence_th=0.74 precision=0.66 and recall=0.29
Top4 confidence_th=0.55 precision=0.50 and recall=0.29
Top5 confidence_th=0.48 precision=0.40 and recall=0.29
Top6 confidence_th=0.45 precision=0.50 and recall=0.43
Top7 confidence_th=0.34 precision=0.43 and recall=0.43
Top8 confidence_th=0.22 precision=0.38 and recall=0.43
Top9 confidence_th=0.17 precision=0.44 and recall=0.57
Top10 confidence_th=0.08 precision=0.50 and recall=0.71

P-R曲线

以Precision为Y轴，Recall为X轴，画出P-R 曲线。
随着confidence_th不断降低，Recall稳步变大，Precision局部波动但整体减小。（这也很好理解，阈值越低，能找到的目标越多，但同时精度也可能会下降。）
P-R
AP(Average Precision)的计算为Interpolated PR曲线下的面积。
Interpolated PR曲线是将取Recall大于等于r时最大的Precision的点（图中红色点）连起来。即下图中红色虚线所示：
在这里插入图片描述
大家可以算一下，这里AP=0.5。

思考

1、mAP虽然综合考虑了平均模型准确度，使得模型优劣的评判标准不随confidence_th和IoU_th取值变化而变化。
但在工程应用中，物体是否被正确检测到，还是需要具体的confidence_th和IoU_th，工程上更关心在固定的confidence_th和IoU_th下的准确率。
2、在工程应用中，根据对于confidence和IoU的侧重不同，来设计loss函数。

参考：
https://www.jianshu.com/p/fbb96bb49782
https://blog.csdn.net/asasasaababab/article/details/79994920
https://zhuanlan.zhihu.com/p/56961620