目标检测评价指标

最新推荐文章于 2024-09-14 16:43:45 发布

AILOCK

最新推荐文章于 2024-09-14 16:43:45 发布

阅读量831

点赞数 10

分类专栏： AI 文章标签：目标检测目标跟踪人工智能

本文链接：https://blog.csdn.net/smilejfy/article/details/140300035

版权

AI 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

目标检测评价指标

1 正样本、负样本

1.1 Anchor概念

Faster R-CNN通过定义三组纵横比ratio=[0.5,1,2]和三种尺度scale=[8,16,32]，组合成9种不同的形状和大小的边框，用来作为anchor。

YOLO与Faster-RCNN不同，yolo是通过k-means聚类的方法，从训练集中学习到不同的anchor，yolo系列后面又出了anchor free的方法。

在YOLOv3中，anchor box就是从训练集中真实框（ground truth）中统计或聚类得到的几个不同尺寸的框，避免在训练时盲目的寻找，这种方法有助于模型的加速收敛。

anchor其实就是对预测的对象范围进行约束，并加入尺寸先验，实现多尺度学习的目的。

对于YOLOV3来说，输出三个尺寸的特征图，与9个anchor对应的关系如下

特征图	Anchor( $416\times416$ 尺度下的坐标)	Anchor特征图尺度下的坐标
大目标： $13\times 13$	$(116\times90),(156\times198)$ , $(373\times 326)$	Anchor<416,416>/32
中目标： $26\times 26$	$(30\times61)，(62\times45)，(59\times119)$	Anchor<416,416>/16
小目标： $52\times 52$	$(10\times13)，(16\times30)，(33\times23)$	Anchor<416,416>/8

注意，每个grid cell都有3个anchor box。

1.2 正负样本

正样本是用来使预测结果更靠近真实值，而负样本是用来使预测结果更原理除真实值之外的值。

正样本就是那些手工标记的ground truth区域作为正样本，负样本计算每个候选区域与真实标记区域ground truth之间的重合，如果区域A与ground truth的重合度在20-50%之间，而且A与其他的任何一个已生成的负样本之间的重合度不大于70%，则A被采纳为负样本，其实就是更具预测框和真实框的IOU值来判断。

loss计算中，“负责预测目标”（即正样本）和背景（即负样本），以及不参与计算loss的部分怎么选择。

正样本的选择：首先计算目标中心落在哪个grid上，然后计算这个grid的9个先验框（anchor）和目标真实位置的IOU值（直接计算，不考虑二者的中心位置），取IOU值最大的先验框和目标匹配，找到grid中该anchor负责预测这个目标，其余的网格、anchor都不负责。

负样本的选择：计算各个先眼眶和所有的目标ground truth之间的IOU，如果某先验框和图像中所有物体最大的IOU都小于阈值(一般0.5)，那么就认为该先验框不含目标，记作负样本，其置信度应当为0。

不参与计算部分：这部分虽然不负责预测对象，但IOU较大，可以认为包含了目标的一部分，不可以简单的当成负样本，所以这部分并不参与误差计算。

2 TP、FP、FN、TN

混淆矩阵如下：

	预测正例	预测反例
真实正例	TP(真正例)	FN(假反例)
真实负例	FP(假正例)	TN(真反例)

P（Positive）代表1，N（Negative）代表0，T（True）代表预测正确，F（False）代表预测错误。

正确的正向预测（TP，True Positive）

正样本被正确检测的数量，也就是正样本被识别成正样本，归属于正确的预测。

TP需要满足三个条件，

置信度需要大于阈值，也就是 $\; Score > Thresold$ 。
预测类型与标签的类别应该相互匹配。
预测的Bounding Box与Ground Truth的交并比(Intersection over Union, IOU)大于阈值，当存在多个满足条件的预选框时，可以选择置信度最大的作为TP,其余作为FP。

错误的正向预测（FP, False Positive）

负样本被检测成正样本的数量，归属于错误的预测。

错误的负向预测（FN, False Negative）

正样本被检测成负样本的数量，归属于错误的预测。

正确的负向预测（TN, True Negative ）

负样本被检测成负样本的数量，归属于正确的预测。

3 交并比

引用于【目标检测】IoU、GIoU、DIoU、CIoU、EIoU 5大评价指标_iou ciou-CSDN博客

在目标检测任务中，常用到一个指标IoU，即交并比，IoU可以很好的描述一个目标检测模型的好坏。在训练阶段IoU可以作为anchor-based方法中，划分正负样本的依据；同时也可用作损失函数；在推理阶段，NMS中会用到IoU。同时IoU有着比较严重的缺陷，于是出现了GIoU、DIoU、CIoU、EIoU，下面我们一起看一下这几种IoU。

3.1 IOU(Intersection over Union)

IoU的计算是用预测框(A)和真实框(B)的交集除以二者的并集，其公式为：
$\frac{A\cap B}{A \cup B}$
IoU的值越高也说明A框与B框重合程度越高，代表模型预测越准确。反之，IoU越低模型性能越差。

IoU优点：

IoU具有尺度不变性。
结果非负，且范围是(0, 1) 。

IoU缺点：

如果两个目标没有重叠，IoU将会为０,并且不会反应两个目标之间的距离，在这种无重叠目标的情况下，如果IoU用作于损失函数，梯度为０，无法优化。
IoU无法精确的反映两者的重合度大小。如下图所示，三种情况IoU都相等，但看得出来他们的重合度是不一样的，左边的图回归的效果最好，右边的最差。

3.2 GIOU(Generalized Intersection over Union)

论文地址：https://arxiv.org/pdf/1902.09630.pdf

为了解决IoU作为损失函数时的两个缺点，有大神提出了GIoU，在IoU后面增加了一项，计算两个框的最小外接矩形，用于表征两个框的距离，从而解决了两个目标没有交集时梯度为零的问题，公式为：
$\frac{C-(A\cup B)}{C}$
其中C是两个框的最小外接矩形的面积。

当IOU=0时：
$-\frac{C-(A\cup B)}{C} = -1 + \frac{A \cup B}{C}$
当IOU为0时，意味着A与B没有交集，这个时候两个框离得越远，GIOU越接近-1；两框重合，GIOU=1，所以GIOU的取值为(-1, 1]。

GIOU作为loss函数时:
$L_{GIOU} = 1-GIOU$
当A、B两框不相交时不变，最大化GIoU就是最小化C，这样就会促使两个框不断靠近。

优点：

当IoU=0时，仍然可以很好的表示两个框的距离。
GIoU不仅关注重叠区域，还关注其他的非重合区域，能更好的反映两者的重合度。

缺点：

当两个框属于包含关系时，GIoU会退化成IoU，无法区分其相对位置关系，如下图：

由于GIoU仍然严重依赖IoU，因此在两个垂直方向，误差很大，很难收敛。两个框在相同距离的情况下，水平垂直方向时，此部分面积最小，对loss的贡献也就越小，从而导致在垂直水平方向上回归效果较差。

如下图，三种情况下GIoU的值一样，GIoU将很难区分这种情况。

3.3 DIOU(Distance Intersection over Union)

论文地址：https://arxiv.org/pdf/1911.08287.pdf

针对上述GIoU的两个问题，有大神将GIoU中最小外接框来最大化重叠面积的惩罚项修改成最小化两个BBox中心点的标准化距离从而加速损失的收敛过程，这就诞生了DIoU。

DIoU要比GIou更加符合目标框回归的机制，将目标与预测之间的距离，重叠率以及尺度都考虑进去，使得目标框回归变得更加稳定，不会像IoU和GIoU一样出现训练过程中发散等问题。

公式如下：
$\frac{\rho^2(b,b^{gt})}{c^2}$
其中 $b,b^{gt}$ 分别代表了预测框和真实框的中心点，且 $\rho$ 代表的是计算两个中心点间的欧式距离。

$c$ 代表的是能够同时包含预测框和真实框的最小外接矩形的对角线长度。

优点：

DIoU loss可以直接最小化两个目标框的距离，因此比GIoU loss收敛快得多。
对于包含两个框在水平方向和垂直方向上这种情况，DIoU损失可以使回归非常快。
DIoU还可以替换普通的IoU评价策略，应用于NMS中，使得NMS得到的结果更加合理和有效。

缺点：

虽然DIOU能够直接最小化预测框和真实框的中心点距离加速收敛，但是Bounding box的回归还有一个重要的因素纵横比暂未考虑。如下图，三个红框的面积相同，但是长宽比不一样，红框与绿框中心点重合，这时三种情况的DIoU相同，证明DIoU不能很好的区分这种情况。

3.4 CIOU(Complete Intersection over Union)

CIoU与DIoU出自同一篇论文，CIoU大多数用于训练。DIoU的作者考虑到，在两个框中心点重合时，c与d的值都不变。所以此时需要引入框的宽高比：
$IOU-(\frac{\rho^2(b,b^{gt})}{c^2}+\alpha v)$
其中 $\alpha$ 是权重函数， $v$ 用来度量宽高比的一致性：

$\alpha = \frac{v}{(1-IOU)+v} \\ v = \frac{4}{\pi^2}(\arctan(\frac{w_{gt}}{h_{gt}})-\arctan(\frac{w}{h}))^2$
最终CIoU Loss定义为：

$L_{CIOU} = 1-IOU+\frac{\rho^2(b,b^{gt})}{c^2}+\alpha v$

优点：考虑了框的纵横比，可以解决DIoU的问题。

缺点：通过CIoU公式中的v反映的纵横比的差异，而不是宽高分别与其置信度的真实差异，所以有时会阻碍模型有效的优化相似性。

3.5 EIOU(Efficient Intersection over Union)

论文地址：https://arxiv.org/pdf/2101.08158.pdf

为了解决CIoU的问题，有学者在CIOU的基础上将纵横比拆开，提出了EIOU Loss，并且加入Focal聚焦优质的预测框，与CIoU相似的，EIoU是损失函数的解决方案，只用于训练。

EIOU的惩罚项是在CIOU的惩罚项基础上将纵横比的影响因子拆开分别计算目标框和预测框的长和宽，该损失函数包含三个部分：重叠损失，中心距离损失，宽高损失，前两部分延续CIoU中的方法，但是宽高损失直接使目标框与预测框的宽度和高度之差最小，使得收敛速度更快。惩罚项公式如下：
$KaTeX parse error: Expected 'EOF', got '&' at position 11: L_{EIOU} &̲=& L_{IOU}+ L_{…$
其中 $c_w$ 和 $c_h$ 是覆盖两个Box的最小外接框的宽度和高度。

通过整合EIoU Loss和FocalL1 loss，最终得到了最终的Focal-EIoU loss，其中 $\gamma$ 是一个用于控制曲线弧度的超参。
$L_{Focal-EIOU} =IOU^{\gamma}L_{EIOU}$
优点：

将纵横比的损失项拆分成预测的宽高分别与最小外接框宽高的差值，加速了收敛提高了回归精度。
引入了Focal Loss优化了边界框回归任务中的样本不平衡问题，即减少与目标框重叠较少的大量锚框对BBox 回归的优化贡献，使回归过程专注于高质量锚框。

3.6 summary

边界框回归的三大几何因素：重叠面积、中心点距离、纵横比。

	重叠	中心点	纵横比	优点	缺点
IOU	√	×	×	尺度不变性，非负性；同一性；对称性；三角不等性。	1.如果两个框不相交，不能反映两个框距离远近 2.无法精确的反映两个框的重合度大小
GIOU	√	×	×	解决检测框和真实框没有重叠时loss等于0问题	1.当检测框和真实框出现包含现象的时候GIOU退化成IOU2.两个框相交时，在水平和垂直方向上收敛慢
DIOU	√	√	×	直接回归两个框中心点的欧式距离，加速收敛。	回归过程中未考虑Bounding box的纵横比，精确度上尚有进一步提升的空间
CIOU	√	√	√	增加了检测框尺度的loss，增加了长和宽的loss，这样预测框就会更加的符合真实框。	1、纵横比描述的是相对值，存在一定的模糊 2、未考虑难易样本的平衡问题
EIOU	√	√	√	分别计算宽高的差异值取代了纵横比，同时引入Focal Loss解决难易样本不平衡的问题。

原文链接：https://blog.csdn.net/xian0710830114/article/details/128177705

4 精确率（查准率）

精确率率(Percision)也叫查准率，是在识别出的物体中，正确的正向预测（TP，True Positive）所占的比率。
$Precision=\frac{TP}{TP+FP}$
$TP + FP$ 代表一共识别出的物体数量。

关注的是所有被预测为正类样本中，有多少是正确的。

精准率和准确率看上去有些类似，但是完全不同的两个概念。

精准率代表对正样本结果中的预测准确程度，而准确率则代表整体的预测准确程度，既包括正样本，也包括负样本。

5 准确率

正例和负例中预测正确数量占总数量的比例，同公式表示：
$\frac{TP+TN}{TP+FP+FN+TN}$
它衡量的是模型正确预测的样本数占总样本数的比例。

虽然准确率可以判断总的正确率，但是在样本不平衡 的情况下，并不能作为很好的指标来衡量结果。举个简单的例子，比如在一个总样本中，正样本占 90%，负样本占 10%，样本是严重不平衡的。对于这种情况，我们只需要将全部样本预测为正样本即可得到 90% 的高准确率，但实际上我们并没有很用心的分类，只是随便无脑一分而已。这就说明了：由于样本不平衡的问题，导致了得到的高准确率结果含有很大的水分。即如果样本不平衡，准确率就会失效

6 召回率

召回率（Recall），是正确识别出的物体占总物体数的比率。
$\frac{TP}{TP+FN}$
衡量的是所有实际为正类的样本中，有多少被模型正确预测。它反映了模型捕捉正类样本的能力。

实际为正的样本中被预测为正样本的概率。

召回率的应用场景： 比如拿网贷违约率为例，相对好用户，我们更关心坏用户，不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户，这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额，造成严重偿失。召回率越高，代表实际坏用户被预测出来的概率越高，它的含义类似：宁可错杀一千，绝不放过一个

7 几何平均分F Score

理想状态下，模型可以检测出所有要检测的物体，并且没有误报，两个指标都是100%，实际中不太可能出现。

模型检测出的检测框有一个分类类别和相应的置信度，在稍微复杂的场景下，并不是所有要检测的物体的置信度都很高，或者都能检测出来，也不是所有检测的全部物体都是我们所想要的目标。下图表示了Precision于Recall的关系，随着Recall的提高，Precision值降低了。

Precision与Recall单独拿出来作为评价标准都太过片面，可以设置一个较大的阈值来获得高Precision或者通过设置个较低的阈值来获得较高的Recall值。我们还是希望有一个数能够衡量性能，所以综合Precision和Recall，可以得到一个F Score,计算公式如下：
$F_{Score} = \frac{(B^2+1)PR}{B^2P+R}$
F Score是Precision和Recall的调和平均数（harmonic mean），B是一个权重，调整P与R的比重关系。调和平均数有个特点，Precision与Recall其中有一个值较小，那么整体就会小，也就是对两个数中如果有特别小的数的惩罚比较大。

F1 Score评价指标

在论文中，经常可以看到F1值作为评价标准之一，将B设置为1，这就是F1 Score.
$\frac{2\times P\times R}{P+R}$
F1值和准确率提供了一个综合考虑精确率和召回率的视角，帮助我们全面评估模型的性能。

F1分数能够找到Precision和Recall之间的一个平衡点，充分考虑了查准率和查全率，让二者同时达到最高，取一个平衡。

如何理解P-R曲线（Precision-Recall, 查准率-查全率）这条曲线？

有的朋友疑惑：这条曲线是根据什么变化的？为什么是这个形状的曲线？ 其实这要从排序型模型说起。拿逻辑回归举例，逻辑回归的输出是一个0到1之间的概率数字，因此，如果我们想要根据这个概率判断用户好坏的话，我们就必须定义一个阈值。通常来讲，逻辑回归的概率越大说明越接近1，也就可以说他是坏用户的可能性更大。比如，我们定义了阈值为0.5，即概率小于0.5的我们都认为是好用户，而大于0.5都认为是坏用户。因此，对于阈值为0.5的情况下，我们可以得到相应的一对查准率和查全率。

但问题是：这个阈值是我们随便定义的，我们并不知道这个阈值是否符合我们的要求。 因此，为了找到一个最合适的阈值满足我们的要求，我们就必须遍历0到1之间所有的阈值，而每个阈值下都对应着一对查准率和查全率，从而我们就得到了这条曲线。

有的朋友又问了：如何找到最好的阈值点呢？ 首先，需要说明的是我们对于这两个指标的要求：我们希望查准率和查全率同时都非常高。 但实际上这两个指标是一对矛盾体，无法做到双高。图中明显看到，如果其中一个非常高，另一个肯定会非常低。选取合适的阈值点要根据实际需求，比如我们想要高的查全率，那么我们就会牺牲一些查准率，在保证查全率最高的情况下，查准率也不那么低。

8 单类平均准确率(AP，Average Precision)

平均准确度（Average Precision, AP）是非常流行的目标检测其的度量指标，从字面上来看AP是平均精准度，对于单独的追求Precision的数值并不能很好的衡量模型的效果，所以AP的计算方式并不是简单的求平均的过程。
$\int_{0}^{1}P(r)dr$
还有个指标是mAP，也就是mean average precision。

在实际应用中，根据不同的业务需求，可能会更侧重于某个特定的指标。例如，在医疗诊断中，我们可能更关注召回率以确保所有可能的病例都被检测到；而在垃圾邮件过滤中，我们可能更关注精确率以避免重要邮件被错误地分类为垃圾邮件。

9 ROC/AUC的概念

Copy于：一文让你彻底理解准确率，精准率，召回率，真正率，假正率，ROC/AUC - AIQ (6aiq.com)

9.1 灵敏度，特异度，真正率，假正率

在正式介绍ROC/AUC之前，我们还要再介绍两个指标，这两个指标的选择也正是ROC和AUC可以无视样本不平衡的原因。 这两个指标分别是：灵敏度和（1-特异度），也叫做真正率（TPR）和假正率（FPR）。

灵敏度（Sensitivity） = TP/(TP+FN)

特异度（Specificity） = TN/(FP+TN)

其实我们可以发现灵敏度和召回率是一模一样的，只是名字换了而已。
由于我们比较关心正样本，所以需要查看有多少负样本被错误地预测为正样本，所以使用（1-特异度），而不是特异度。

真正率（TPR） = 灵敏度 = TP/(TP+FN)

假正率（FPR） = 1- 特异度 = FP/(FP+TN)

下面是真正率和假正率的示意，我们发现TPR和FPR分别是基于实际表现1和0出发的，也就是说它们分别在实际的正样本和负样本中来观察相关概率问题。 正因为如此，所以无论样本是否平衡，都不会被影响。还是拿之前的例子，总样本中，90%是正样本，10%是负样本。我们知道用准确率是有水分的，但是用TPR和FPR不一样。这里，TPR只关注90%正样本中有多少是被真正覆盖的，而与那10%毫无关系，同理，FPR只关注10%负样本中有多少是被错误覆盖的，也与那90%毫无关系，所以可以看出：如果我们从实际表现的各个结果角度出发，就可以避免样本不平衡的问题了，这也是为什么选用TPR和FPR作为ROC/AUC的指标的原因。

9.2 ROC

ROC（Receiver Operating Characteristic）曲线，又称接受者操作特征曲线。该曲线最早应用于雷达信号检测领域，用于区分信号与噪声。后来人们将其用于评价模型的预测能力，ROC曲线是基于混淆矩阵得出的。

ROC曲线中的主要两个指标就是真正率和假正率， 上面也解释了这么选择的好处所在。其中横坐标为假正率（FPR），纵坐标为真正率（TPR），下面就是一个标准的ROC曲线图。

ROC曲线的阈值问题

与前面的P-R曲线类似，ROC曲线也是通过遍历所有阈值 来绘制整条曲线的。如果我们不断的遍历所有阈值，预测的正样本和负样本是在不断变化的，相应的在ROC曲线图中也会沿着曲线滑动。

如何判断ROC曲线的好坏？

改变阈值只是不断地改变预测的正负样本数，即TPR和FPR，但是曲线本身是不会变的。那么如何判断一个模型的ROC曲线是好的呢？这个还是要回归到我们的目的：FPR表示模型虚报的响应程度，而TPR表示模型预测响应的覆盖程度。我们所希望的当然是：虚报的越少越好，覆盖的越多越好。所以总结一下就是TPR越高，同时FPR越低（即ROC曲线越陡），那么模型的性能就越好。 参考如下