目录
提出目的和方法
提出目的
近期,在竞赛和挑战中,监督对象检测的卓越成果通常与特定的度量标准和数据集相关联。在不同背景下应用这些方法的评估增加了对标注数据集的需求。标注工具表示对象在不同格式中的位置和大小,导致对这种表示缺乏共识。这种情况常常使对象检测方法之间的比较变得复杂。
提出方法
本研究沿以下几个方面缓解了这一问题:
(i)提供了有关对象检测竞赛中使用的最相关评估方法的概述,突出了它们的特性、差异和优势;
(ii)审视了使用最广泛的标注格式,展示了不同实现如何影响评估结果;
(iii) 提供了一种新颖的开源工具包,支持不同的标注格式和 15 种性能指标,使研究人员更容易评估其检测算法在大多数已知数据集上的表现。此外,本研究还提出了一种新指标,也包含在该工具包中,用于评估视频中的对象检测,基于真实值与检测到的边界框之间的时空重叠。。
标注工具
不同数据集的标注格式
由于每个数据集使用特定格式进行标注,因此各工作倾向于采用提供的评估工具来评估其性能。因此,结果依赖于与使用的数据集相关的特定指标实现。例如,PASCAL VOC 数据集采用 PASCAL VOC 注释格式,该格式提供了一个实现 AP 和 mAP(交并比 IOU=0.50)的 MATLAB 代码。这往往限制了使用其他指标来报告该特定数据集的结果。表 2 列出了流行的对象检测方法及其相关的数据集,以及用于报告结果的 14 种不同指标,即:AP@[.5:.05:.95]、AP@.50、AP@.75、APs、APM、APL、AR1、AR10、AR100、ARs、ARM、ARL、mAP(IOU=.50)和 AP。
由于评估指标与特定的注释格式直接相关,几乎所有工作都仅报告用于基准数据集的指标结果。例如,当使用 PASCAL VOC 数据集时,报告的 mAP(IOU=.50)。同时,AP@[.5:.05:.95] 用于报告 COCO 数据集的结果。如果某项工作使用 COCO 数据集训练模型并希望使用 PASCAL VOC 工具评估其结果,则需要将 COCO JSON 格式的真实值转换为 PASCAL VOC XML 格式。这种情况使得跨数据集评估的使用变得不太常见,而这种评估在对象检测文献中已变得相当稀有。
IOU表示方法
TP,FP以及FN
平均精确率计算
N个点插值
所有点的插值
平均召回率(Average Recall)
实验案例
基于AP和AR的最常用指标
IOU 阈值为 0.5 的 AP:该AP指标广泛用于评估 PASCAL VOC 数据集中的检测。官方实现位于 MATLAB 中,并可在 PASCAL VOC 工具包中获得。它通过计算精度 × 召回率曲线下的面积来单独测量每个类别的 AP,如公式 (9) 所示。为了将检测分类为 TP 或 FP,IOU 阈值设置为 t=0.5t=0.5。
IOU 阈值为 0.5 的 mAP:该指标也由 PASCAL VOC 数据集使用,并且在其 MATLAB 工具包中可用。它的计算方法与 IOU t=0.5t=0.5 的 AP 相同,但各个类别的结果会根据公式 (13) 进行平均。
AP@.5 和 AP@.75:这两个指标评估精度 × 召回率曲线的方法不同于 PASCAL VOC 指标。在此方法中,插值在 N=101N=101 个回召点上进行,如公式 (11) 所示。然后,将每个类别的计算结果相加并按类别数量进行划分,如公式 (13) 所示。
AP@.5 和 AP@.75 之间唯一的区别在于应用的 IOU 阈值。AP@.5 使用 t=0.5t=0.5,而 AP@.75 则应用 t=0.75t=0.75。这两个指标通常用于在 COCO 数据集上报告检测,并在其官方评估工具中获得。
AP@[.5:.05:.95]:该指标通过计算在 10 个不同 IOU 阈值下的 AP(t=[0.5,0.55,…,0.95]t=[0.5,0.55,…,0.95])来扩展 AP@.5 和 AP@.75 指标,并将所有结果的平均值进行汇总。
APS、APM 和 APL
这三个指标,也称为跨尺度的 AP(AP Across Scales),考虑了真实目标的面积,具体如下:
在评估特定大小的对象时,其他大小的对象(真实目标和预测目标)不会被纳入评估。这一指标也是 COCO 评估数据集的一部分。
AR1、AR10 和 AR100:这些 AR 变体应用公式 (14),限制每张图像的检测数量,即它们计算在每张图像上给定固定数量检测的召回率(AR),并在所有类别和 IOU 上进行平均。用于测量召回值的 IOU 与 AP@[.5:.95] 中的 IOU 相同。
其他指标
其他一些热门指标也被提出用于评估目标检测。开放图像检测指标(Open Images Object Detection Metric)与 mAP(IOU = 0.5)相似,专门设计用于处理开放图像数据集中特殊的真实标注。该数据集将五个或更多同类物体分组为单一标注,如一组花或一群人。该指标会忽略重叠的检测,如果某一检测与被标记为“组”的真实框重叠,以该组的交集区域与真实框的面积进行比率计算,这样就不会惩罚与一组非常接近的真实目标的检测。
位置召回-精度(LRP)误差是一种新指标,旨在考虑检测到的边界框定位的准确性,并公平地评估在 AP 无法区分非常不同的精度 × 召回曲线的情况下的表现。
指标之间的比较
在实践中,COCO 的 AP@[.5:.05:.95] 和 PASCAL 的 mAP 指标是最常用的基准。由于 COCO 的 AP@[.5:.05:.95] 受不同 IOU 的影响,因此无法评估检测器在更具限制性或不那么限制性 IOU 下的有效性。对真实标注与检测边界框的相似性进行更严格的评估时,应使用 AP@.75。
在物体的尺寸相对不同的情况下,应采用 AP 指标。通过这样做,可以比较具有相似尺寸的物体。插值方法试图消除 Pr(τ) 和 Rc(τ) 行为的非单调性。在 N 点插值中,更大的 N 会得到更好的 AUC 近似。因此,COCO 的 AP 指标提供的 101 点插值方法能够比 11 点插值方法提供更好的 AUC 近似。另一方面,PASCAL VOC 则使用全点插值,这是更好的 AUC 近似,适用于检测器需要检测到至少一个目标的情况。