翻译与笔记1：What Makes for End-to-End Object Detection?（什么是端到端对象检测？）（精读）-CSDN博客

文献：Sun, P., Jiang, Y., Xie, E., Shao, W., Yuan, Z., Wang, C., & Luo, P. (2021). "What Makes for End-to-End Object Detection?" In Proc. 38th Int. Conf. Mach. Learn. (PMLR, Vol. 139), pp. 9934-9944.

一、翻译

摘要

目标检测最近在去除管道中最后一个不可微分的组件，即非最大抑制（NMS）方面取得了突破，并建立了一个端到端的系统。然而，其一对一预测的原因尚未得到很好的理解。在本文中，我们首先指出，一对一的正样本分配是关键因素，而以往检测器中的一对多分配会导致推理中的冗余预测。其次，我们惊讶地发现，即使是一对一的分配训练，以前的检测器仍然会产生冗余的预测。我们发现，匹配成本中的分类成本是主要因素：（1）预先检测器只考虑位置成本，（2）通过额外引入分类成本，预先检测器在推理过程中立即产生一对一的预测。引入分数差距的概念来探讨匹配成本的效果。分类成本通过选择阳性样本作为训练迭代中得分最高的样本，并减少仅由位置成本带来的噪声阳性样本来扩大分数差距。最后，我们展示了在拥挤场景中端到端目标检测的优势。

1. 介绍

目标检测是计算机视觉领域的基本任务之一，可实现许多下游应用。它旨在定位一组对象，并在图像中重新定义它们的类别。目标检测管道的发展（Girshick等人，2014;Girshick，2015 ;任等人，2015 ;Cai & Vasconcelos，2018 ;Redmon 等人，2016 ;Liu等人，2016;Lin等人，2017b;Tian等人，2019;周等人，2019 ;Carion 等人，2020 ）是移除手动设计的组件并走向端到端系统的路线。

图 1.端到端对象检测。非端到端目标检测器需要 NMS 来删除冗余预测。作为目标检测管道中最后一个手动设计的组件，不可微分的 NMS 模块设置了端到端的对象检测系统。

几十年来，物体检测中的样本都是候选框。在经典计算机视觉中，分类器应用于图像网格上枚举的滑动窗口（Dalal &Triggs，2005;Felzenszwalb 等人，2010 年;Viola & Jones，2001年）。现代探测器在图像网格上预定义了数千个锚框，并对这些候选者进行分类和重新定义（Girshick等人，2014;任等人，2015 年;Lin等人，2017b;Redmon和Farhadi，2017）。尽管候选框方法多年来一直主导着目标检测，但检测性能在很大程度上对大小、纵横比和锚框数量敏感。为了消除候选框的手工设计和复杂的计算，无锚探测器（Tian et al.， 2019;周 et al.， 2019）正在上升。这些方法直接将特征图中的网格点视为候选对象，并预测从网格点到对象框边界的偏移量，并在很大程度上简化了检测管道。然而，候选框和点候选都存在一个共同的问题，即每个对象都会产生冗余和近乎重复的预测，从而使得推理中需要非最大抑制（NMS）进行后处理。为了建立一个端到端的目标检测系统，NMS是管道中最后一个手动设计的组件。

最近，基于注意力的检测器（胡等人，2018;Car ion 等人，2020 年;Zhu 等人，2020 年;Sun 等人， 2020a）实现了在没有NMS的情况下直接输出预测。到目前为止，管道中所有手动设计的组件都已移除，并最终建立了一个端到端的对象检测系统。然而，与以前基于候选框和候选点的方法相比，这些基于注意力的检测器架构和一对一的正样本分配都是全新的。它激励我们探索端到端对象检测的确切原因。为了了解是什么在目标检测中实现了非冗余预测，我们研究了三个非端到端检测器，RetinaNet（Lin等人，2017b），中心网络（周等人，2019），FCOS（Tian等人，2019）和三个端到端检测器，DETR（Carion等人，2020），可形变DETR（Zhu等人，2020），稀疏R-CNN（Sun等人， 2020a）。我们的实证结果表明：

• 非端到端检测器将正样本按照一对多分配会导致推理中的冗余预测，而端到端检测器是一对一分配的。然而，即使是使用一对一分配进行训练，非端到端检测器仍然会产生冗余预测。

• 缺乏分类成本是实现一对一预测的主要障碍：（1）非端到端设计者只考虑位置成本。（2）此外，还考虑分类成本，这些探测器在推断过程中立即产生一对一的预测，成功去除了NMS，实现了端到端的检测。

由于冗余预测是高分类分数的预测，因此我们引入了分数差距的概念来描述第一高分和第二高分之间的差距。端到端设计的一个充分要求是分数差距应该足够大。由于在训练迭代中选择正样本作为中等分类分数的样本，因此仅通过位置成本对阳性样本进行签名并不能扩大分数差距，而另外考虑分类成本会导致通过选择得分最高的样本来获得足够大的分数差距。此外，我们发现仅通过位置成本选择的阳性样本引入了类似背景的阳性样本，从而降低网络的判别能力，而分类成本可以降低这些噪声样本。

我们使用线性可分离设置中的每个感知器更新规则分析了具有分类成本的一对一正样本分配的收敛特性。端到端目标检测器避免了拥挤场景中的NMS困境（Zhang等人，2019）。在CrowdMan数据集（Shao等人，2018）中，我们证明了RetinaNet和FCOS的端到端版本大大优于其基线设置。

2. 目标检测初步

目标检测是一项多任务，需要定位一组对象并识别它们在图像中的类别。对于 H x W x 3 的输入图像，预测是类别为 N x K 且位置为 N x 4 的 N 个框，其中 K 是类别数，4 是四条边的坐标。

2.1. 管道目标候选

目标候选。目标检测器在特征图中假设一个区域（Girshick等人，2014;任等人，2015 年;Cai & Vasconcelos， 2018）或特征图中的一个点（Redmon 等人， 2016;Lin等人，2017b;Tian 等人，2019 年;周等人，2019）作为对象候选者。对象 candi 日期的数量总是远远超过可能的对象，以保证检测召回。

分类和位置。分类子网预测 K 个对象类别的候选对象的概率。位置子网预测从每个候选对象到对象框的 4 个边界的偏移量。

2.2. 训练

目标检测损失。目标检测的训练损失包括分类损失和回归损失，其中回归损失只在正样本上执行：

其中 S 是样本集，P 是正样本集，S \ P 是负样本集， $L_{cls}$ 是预测类别和真值类别之间的分类损失，例如交叉熵损失和焦点损失（Lin et al.， 2017b）， $L_{loc}$ 是样本盒和真值盒之间的位置损失，例如 L1 损失和 GIoU 损失（Rezatofighi et al.， 2019).

尽管目标检测的训练损失是明确的，但阳性样本是有争议的。在对象检测中，注释是图像中对象的边界框和类别，而不是对象候选项。在目标检测任务中选择正样本比图像级分类任务更复杂，因为在给出图像注释时，图像分类的正样本和负样本是无可争议的。

匹配成本。为了更好地选择正性样品和负性样品进行目标检测，引入了匹配成本来测量样品与目标之间的距离。对于样本 i 和对象 j，匹配成本 $C _{i,j}$ 为：

其中 $C_{cls}(i, j)$ 是样本 i 的预测类别与对象 j 的真值类别之间的分类损失， $C_{loc}(i, j)$ 是样本 i 和对象 j 的真值框之间的位置损失。为方便起见，我们称 $C_{loc}(i, j)$ 为位置成本，将 $C_{cls}(i, j)$ 称为分类成本。

匹配成本不要求严格等于损失函数，只要其设计适合选择正样本即可。事实上，在最近之前的几十年里，匹配成本只包含 $C_{loc}(i, j)$ （Carion 等人， 2020;Zhu 等人，2020 年;Sun 等人，2020a）。

正样本分配。计算出所有样本和对象 j 的匹配成本后，低于成本阈值 $\Theta (j)$ 的样本将被选为正样本：

许多启发式规则（Girshick 等人， 2014;Cai & Vascon celos，2018 年;Tian 等人，2019 年;周等人，2019 年;Zhang 等人，2020b;a）被提议确定，这导致了一对多和一对一的真值到正样本的分配。

2.3. 推理

由于候选对象总是比图像中的对象多得多，因此输出按分数进行过滤，以保证检测精度。如果仍然存在冗余框，则使用非最大抑制（NMS）来删除这些冗余预测。NMS 是一个启发式手动设计的组件。选择得分最高的框，并消除其他相邻框。

然而，不可微分的NMS阻碍了端到端系统的建立。更糟糕的是，探测器在拥挤的场景中会遇到NMS困境（Zhang 等人， 2019）。为此，提出了端到端的目标检测方法。

3. 端到端目标检测

端到端目标检测意味着目标检测管道没有任何不可微分的组件，例如 NMS。网络的输入是图像，输出是对对象类别或背景分类的直接预测以及箱回归。整个网络以端到端的方式进行训练，并具有反向传播功能。

图2.正样本分配。非端到端检测器在训练中应用一对多的正样本分配，并在推理中产生一对多的预测。而端到端目标检测器是一对一的正样本分配和一对一的预测。这促使我们在非端到端检测器中应用一对一分配。

表 1.一对一阳性样本分配的影响。探测器的原始设置以灰色突出显示。“o2o”表示一对一的阳性样本分配。顶部是端到端检测器，它应用一对一的分配，不依赖于 NMS。底部是非端到端检测器，其原始设置使用一对多分配，严重依赖 NMS。通过一对一分配进行训练只会在一定程度上减少非端到端探测器对 NMS 的依赖，它们仍然需要 NMS 来进一步消除冗余预测。

3.1. 实验设置检测器

我们选择了三个非端到端探测器，RetinaNet（Lin等人，2017b），CenterNet（周等人，2019），FCOS（Tian等人，2019）和三个端到端探测器，DETR（Carion等人，2020），可变形DETR（Zhu等人，2020），稀疏R-CNN（Sun等人，2020a）。

数据。我们的实验是在具有挑战性的COCO基准上进行的（Lin等人，2014）。我们使用标准的 COCO 指标 AP 来平均 IoU 阈值。所有模型均在 train2017 拆分（118k 图像）上训练，并使用 val2017（5k 图像）进行评估。

3.2. 正样本分配一对多分配

一对多分配。非端到端检测器的显著特性是一对多的正样本分配，如图 2 所示。在训练步骤中，对于一个真实值盒，匹配成本低于成本阈值的任何样本都被指定为正样本。它始终会导致特征图中的多个样本被选为正样本。因此，在推理步骤中，这些检测器会产生冗余预测。

一对一分配。相反，端到端检测器在训练步骤中应用一对一的分配。对于一个真值盒，只有一个匹配成本最小的样本被指定为正样本，其他样本都是负样本。正样本通常通过二分匹配（Kuhn，1955）来选择，以避免样本冲突，即两个真值框共享相同的正样本。

如表1所示，端到端检测器，包括DETR、Deformable DETR和稀疏R-CNN，应用一对一分配并消除NMS。因此，将非端到端检测器转换为端到端的一个直观思路是用一对一的分配代替一对多分配。具体来说，RetinaNet 选择正样本作为具有最大 IoU 的锚点，具有地面实况框，CenterNet 选择特征图中与地面实况框中心距离最近的网格点，而 FCOS 从特征金字塔中的预定义层中进行选择（Tian 等人，2019 年）。

然而，一对一的分配只会将对 NMS 的依赖降低到一定程度，非端到端检测器仍然需要 NMS 来进一步消除冗余预测。例如，NMS可以进一步提高RetinaNet、CenterNet和FCOS的一对一分配版本，分别提高3.2 AP、8.6 AP和2.8 AP，如表1所示。
结论 3.1 即使在训练中将一对多赋值替换为一对一赋值，非端到端检测器在推理中仍然会产生冗余预测。
关于阳性样品分配的实验表明，一对一分配对于端到端目标检测是必要的，但还不够。我们进一步深入研究了匹配成本的构成。

图3.匹配成本。非端到端目标检测器仅按位置成本分配阳性样本，而端到端检测器还考虑分类成本。

表 2.分类成本的影响。探测器的原始设置以灰色突出显示。“O2O”表示一对一的阳性样本分配。“loc.”表示位置成本。“cls.”表示分类成本。“pre-def.” 和 “pred.” 是预定义的位置成本和预测的位置成本，如 3.3 所示。所有检测器都采用一对一的阳性样品分配。如果没有分类成本，所有探测器都会大大降低检测精度，并严重依赖NMS。相反，增加分类成本消除了 NMS 的必要性。

3.3. 匹配成本

位置成本。通过审查非端到端目标检测器，我们发现它们仅通过位置成本分配阳性样本。位置成本定义如下：

其中 CL1 和 Ciou 分别是样本和真值盒之间的 L1 损耗和 IoU 损耗。 $\lambda _{L1}$ 和 $\lambda_{iou}$ 是系数。当候选对象是特征图中的点时， $\lambda_{iou}$ = 0。我们注意到，候选对象可以被预定义或预测。以 RetinaNet 为例，其预定义的候选对象是锚框，而其预测的候选对象是由预测偏移量优化的预测框。对于 CenterNet 和 FCOS，预定义的候选对象是特征图中的网格点，而预测的候选对象是预测框。根据候选对象，还可以预定义或预测位置成本。

定位成本可以合理地衡量所选阳性样本是否有利于定位。但是，目标检测是一项定位和分类的多任务。分类成本也应该被考虑在内，尽管它在最近之前已经被忽视了几十年。

分类成本。通过在分配中引入分类成本，总成本是样本和真实值之间的分类成本和位置成本的总和，定义如下：

其中 $C_{cls}$ 是预测分类和地面实况类别标签的分类损失。 $C_{loc}$ 在公式 4 中定义。 $\lambda _{cls}$ 是系数。
如表 2 所示，端到端目标检测器的默认设置包括位置成本和分类成本。当丢弃分类成本时，这些探测器会显着退化并严重依赖 NMS。

继续 RetinaNet、CenterNet 和 FCOS 的一对一分配版本，分类成本被额外引入到它们的匹配成本中。对于 RetinaNet 和 CenterNet，在所有样本中，选择阳性样本作为匹配成本最低的样本。对于FCOS，正样本是从特征金字塔的预定义图层中选择的。如表2所示，立即增加分类成本使NMS对检测性能影响不大

结论 3.2 非端到端检测器仅按位置成本分配阳性样品。但是，当另外考虑分类成本时，他们会立即在一对一分配下产生一对一的预测。

为了完全降低NMS的必要性，我们还进行了实验，将RetinaNet，CenterNet和FCOS中的预定义位置成本更改为预测位置成本。我们注意到，DETR、Deformable DETR 和 Sparse R-CNN 中的定位成本也是基于预测框的。如表2所示，分类成本和预测定位成本的结合使以前的非端到端探测器能够实现完全端到端。有趣的是，基于预测框的定位成本可以获得更好的检测性能。我们解释说，这是因为预测的位置成本使匹配成本与训练损失函数更加一致，从而有利于目标检测器的优化。

我们上面的实验表明，一对一的分配是必要的，但对于一对一的预测来说是不够的。此外，考虑分类成本是实现端到端目标检测的关键。我们进一步探讨了分类成本是如何产生影响的。

3.4. 分数差距

为了理解分类成本对端到端对象检测的贡献，我们首先介绍以下定义。

定义 3.3（分数差距）给定一个分类网络 N 和 asetofsamples S，如果样本 i 为正，其他样本为负，则训练网络并得到每个样本的分数 s（i），设 imax = argmaxj S s（j），则分数差距（N， S， i）定义为：

分数差距描述了第一高分和第二高分之间的差距。端到端对象检测的一个充分要求是分数差距应该足够大，否则，无法轻松过滤掉非最大预测：高分阈值可能会过滤掉所有预测，而低阈值可能会输出冗余预测。在图 4 中，我们显示了经过训练的检测器在一对一分配下有和没有分类成本的样本分类分数。仅就位置成本而言，最高分和第二高分之间的差距可以忽略不计。此外，所有样本的分数都相对较低。相反，考虑分类成本会产生明显的分数差距，因此，实现端到端的对象检测。为了探索在不同匹配成本下如何产生分数差距，我们在图 5 中进一步显示了样本在不同训练阶段的分类分数。

图5.不同训练阶段的阳性样本。为了更好地可视化，我们只显示数字 104 以下的部分，分数归一化为 [0， 1]。蓝色箱显示检测器训练，仅通过位置成本选择阳性样本。红色条柱同时考虑了位置成本和分类成本。只有位置成本会选择阳性样本作为中等分数的样本。引入分类损失使阳性样本成为整个训练过程中得分最高的样本。

仅对于位置成本，正样本位于最靠近对象地面实况框中心的网格点。然而，阳性样本是中等分数的样本。这样的阳性样本将推动网络拉低得分高的样本的分数。因此，所有样本的分数往往相对较低。

当另外考虑分类成本时，正样本是在训练迭代中得分最高的样本。这些选择对于进一步提高正样本的分数和扩大分数差距更有用，同时，由于正样本仍在对象真值盒内，因此不会损害盒回归。在整个训练过程之后，最终生成足够大的分数差距，实现端到端的目标检测。

结论 3.4 分类成本选择阳性样本作为训练过程中得分最高的样本，因此产生了足够大的分数差距，用于端到端目标检测。

我们注意到，在整个训练过程中，仅通过位置成本选择的阳性样本是相同的样本，但该样本的分类分数始终保持为中等分数。为了解释为什么它的分数无法提升，我们在不同的训练图像中可视化了阳性样本，如图 6 所示。

如果仅考虑位置成本，则正样本位于最靠近对象地面实况框中心的网格点。此赋值有利于框回归，但对于前景和背景分类来说不是一个好的选择。具体来说，一些类似背景的样本被指定为阳性样本，在图6中用黄色环突出显示。这些案例来自物体的任意形状和姿势，例如长颈鹿的长脖子。这些类似背景的样本是分类任务的噪声样本，降低了网络的判别能力。

相反，当引入分类成本时，阳性样本是更具歧视性区域的网格点，例如长颈鹿的脖子。在这种情况下，应避免在物体区域之外选择阳性样品。此外，这些判别阳性样本对于分类分支区分噪声样本也更有用。因此，阳性样品的噪声被有效地减少

观察 3.5 只有位置成本才能选择噪声背景样阳性样本，而另外考虑分类成本可以减少这些噪声阳性样本。

图6.不同训练图像中的阳性样本。为了更好地可视化，正网格点由周围的圆圈突出显示。第一排仅是位置成本。第 2 行是分类成本和位置成本的总和。仅按位置成本分配的正样本是最接近地面实况箱中心的网格点，但是，一些类似背景的样本被分配为正样本，用黄色环突出显示。加上分类成本，阳性样本是更具歧视性区域的网格点，例如长颈鹿的脖子。

从上述分析中发现，非端到端检测器在选择阳性样本时只考虑位置成本，这使得阳性样本噪声，降低了网络的判别能力。这会导致较小的分数差距并产生冗余预测。相反，当额外引入分类成本时，可以减少噪声样本，得分差距足够大，从而实现端到端的目标检测。

4. 理论分析

4.1. 设置

在本节中，我们分析了以匹配成本为位置成本和分类成本之和的一对一分配下目标检测器的收敛特性，其中只有一个匹配成本最小的样本被分配为正样本，其他样本均为负样本。
由于系统框架超出了我们的能力范围，我们首先在验证实验的基础上做出一些合理的假设。我们进行了定位子网参数固定的实验，只训练分类子网。我们观察到与第 3 节相同的结论。这导致了以下观察结果：
观察 4.1 分类子网的优化与位置子网无关。基于观察4.1，可以合理地将目标检测的分类分数分析简化为单一分类问题，其中所有样本中只有分类成本最小的样本被选为阳性样本，其他样本均为负样本。

我们专注于使用线性分类器分析属性。设 $X = \left \{ x\in \mathbb{R}^{d} : \left \| x \right \| \leq 1 \right \}$ 为实例空间， $Y = \left \{ +1, -1 \right \}$ 为标签空间。阳性样本的标签为 +1，而阴性样本的标签为 -1。我们希望训练一个分类器 h，它来自一个假设类 $H = \left \{ x \mapsto sign\left ( w^{T}x \right ) : w \in \mathbb{R}^{d} \right \}$ 请注意，我们可以通过重写 $w = \left [ \hat{w}, b \right ]$ 和 $x = \left [ \hat{x}, 1 \right ]$ 来表示偏差项 b。我们使用感知器的更新规则，小批量大小为 1。也就是说，给定分类器 $w_{t}\in \mathbb{R}^{d}$ ，仅对 $w_{t+1} = w_{t} + \eta y_{t}x_{t}$ 给出的错误分类示例 $\left ( x_{t}, y_{t} \right ) \in X \times Y$ 执行更新，其中 $\eta$ 是步长。根据一对一的正标签分配，在每个更新步骤中，我们表示 $x_{t}^{1} = argmax_{x\in X}{w_t}^{T}x$ ， $x_{t}^{1}$ 的标签为 $y\left ( x_{t}^{1} \right ) = +1$ ，X 中剩余样本的标签为 y（x） = -1， $x \in X \setminus \left \{ x_{t}^{1} \right \}$ 。

4.2. 理论结果

我们首先表明，在每次训练迭代中，具有由一对一分配分配的标签的样本是线性可分离的，这意味着正的确定分数差距。基于这个结果，我们证明了一对一的分配可以在有限的更新步骤内收敛

命题4.2（可行性） 假设一对一赋值在 X x Y 中的一系列示例上运行。给定更新步骤 t 的权重向量 $w_{t} = \left [ \hat{w}_{t}, b_{t} \right ]$ ，存在 $\gamma _{t} \in \mathbb{R}$ 和 $\delta _{t} > 0$ ，使得对于所有 $\left ( x, y \right ) \in X \times Y$ ，我们都有 $y\left ( w_{t}^{*} \right )^{T}x \geq \delta _{t}$ 和 $w_{t}^{*} = \left [ \hat{w}_{t}, \gamma _{t} \right ]$ 。

证明。详细证据见附录。

通过提案 4.2，我们看到总存在一个分类器，当标签通过一对一分配分配时，可以在每个更新步骤中正确分类所有样本。

定理4.3（收敛性）设 $\gamma _{t+1}$ 和 $\gamma _{t}$ 是命题4.2中定义的常数。对于每个更新步骤t，我们假设存在一个步长 $\eta _{t}$ ，使得 $\left \| x_{t} \right \|^{2}\eta _{t}^{2} + y_{t}\left ( \gamma _{t+1} - 2\gamma _{t} \right )\eta _{t} + b_{t}\left ( \gamma _{t+1} - \gamma _{_{t}} \right ) > 0$ ，其中 $\left ( x_{t}, y_{t} \right )$ 是迭代 t 时分类错误的样本。如果样本标签是通过一对一分配分配的，那么， $t \leq \frac{\eta _{max}^{2} - 2\eta _{min}\delta _{min}\left ( w{_{1}}^{t}w_{0}^{*} - \left \| w_{0} \right \|-\eta _{max} \right)}{2\eta _{min}^{2}\delta _{min}^{2}}$ 其中 $\eta _{max}$ 和 $\eta _{min}$ 是所有t更新中步长的最大值和最小值， $w_{1}$ 是第一次更新后的分类器，并且 $\delta _{min}$ 是命题4.2中所有 $\delta _{t}s$ 的最小值。初始化时的所有实例都可以正确地由 $w_{0}^{*}$ 分类。

证明详细证明见附录。

定理4.3表明，具有通过一对一分配分配的标签的样本可以收敛到允许单个正样本的分类器，即其标签为+1。因此，在分类输出是一对一预测的意义上，保证收敛到解决方案。

备注4.4 在分类输出是一对一预测的意义上，保证具有分类成本的一对一分配收敛到解。但仅以位置成本进行分配可能会产生多个正样本。

根据定理4.3，我们看到一对一预测是基于存在一个分类器，该分类器可以在每个更新步骤正确地对所有样本进行分类。然而，在没有分类成本的情况下，只有位置成本通过位置准则来确定正样本，这可能导致这样的正样本可能与剩余的负样本不可线性分离的问题。在这种情况下，感知学习算法可以收敛到预测误差最小的分类器（Burton等人，1997）。因此，它可能会产生许多阳性样本。

5.拥挤物体检测

在拥挤的场景中，以前的非端到端检测器在使用NMS去除重复预测时面临一个困境（Zhang et al.，2019）：较高的NMS阈值会带来更多的假阳性，而较低的阈值可能会错误地去除真阳性并导致未检测到的对象。相反，端到端检测器通过消除NMS完全避免了这个问题，并在拥挤的场景中表现出优越的性能。

表3 CrowdHuman验证集上不同物体探测器的比较。“o”表示没有NMS处理。NMS处理的注释框仅获得95.0%的召回率，这是非端到端检测器的上限。端到端版本的RetinaNet和FCOS不受召回上限的限制，并且在很大程度上优于其基线设置。NMS会损害端到端检测器在拥挤场景中的性能。

5.1实验设置

探测器。我们选择RetinaNet（Lin et al.，2017b）。FCOS（Tian et al.，2019）及其具有预测位置成本的端到端变体。

数据集。CrowdHuman（Shao 等人，2018）是一种广泛使用的拥挤物体检测基准，其中人的盒子是高度拥挤和重叠的。我们使用指标AP、mMR和loU 0.5阈值的召回率。所有模型都在训练集（约15k幅图像）上进行训练，并使用验证集（约4k幅图像。

5.2.结果

表3显示了CrowdHuman上不同物体探测器的性能。我们首先表明，在注释框上应用NMS仅获得95%的召回率，这表明在拥挤的场景中，即使是最强的非端到端检测器也与NMS绑定。相反，当我们通过增加一对一阳性样本和分类成本，将RetinaNet（Lin et al.，2017b）和FCOS（Tian et al.，2019）改革为端到端检测器时，它们不受该召回上限的约束，并将召回率分别显著提高到98.1%和97.6%。同时，AP50和mMR受益于端到端设置的巨大改进。当NMS用于处理端到端RetinaNet和FCOS的预测时，性能会立即退化。进一步论证了NMS在拥挤场景中的不足和端到端对象检测的优越性。

6. 相关工作

对象检测。目标检测是计算机视觉领域中最基础和最具挑战性的话题之一。受限于经典的特征提取技术（Dalal & Triggs， 2005;Viola & Jones， 2001），性能几十年来一直停滞不前，应用场景有限。随着深度学习的快速发展（Krizhevsky 等人， 2012;Simonyan & Zisserman，2015 年;Szegedy 等人，2015 年;He 等人，2016 年;Huang 等人， 2017），目标检测实现了强大的性能（Everingham等人，2010;Lin等人，2014）。

单级探测器。单级探测器以单次方式直接预测不同空间位置和尺度上密集锚箱或点的类别和位置，例如YOLO（Redmon等人，2016），SSD（Liu等人，2016）和RetinaNet（Lin等人，2017b）。YOLO（Redmon等人，2016）将图像划分为S×S网格，如果物体的中心落入网格单元格中，则相应的单元负责检测该对象。SSD（Liu 等人， 2016）直接预测多尺度特征图层上的对象类别和锚框偏移。RetinaNet（Lin等人，2017b）利用焦点损失来缓解基于FPN的阳性和阴性样本的极端不平衡（Lin等人，2017a）。最近，无锚探测器（Huang 等人， 2015）被提出，通过用参考点代替手工制作的锚箱，使这条管道变得更加简单。CornerNet（Law & 邓，2018）通过热图生成关键点，并按关联嵌入对它们进行分组（Newell 等人， 2017）。CenterNet（周等人，2019）直接使用中心点在单个尺度上回归目标对象。FCOS（Tian 等人， 2019）利用FPN的力量将不同大小和比例的物体分配给多尺度特征图（Lin等，2017a）。ATSS（Zhang 等人， 2020b）揭示了基于锚点和无锚点检测之间的本质区别在于如何定义正性和负性训练样本，从而导致它们之间的性能差距。

两级探测器。两级探测器（Cai&Vasconcelos，2018;Dai 等人，2016 年;Girshick，2015 年;He 等人，2017 年;任等人， 2015）首先按区域提案网络生成一组高质量的前景提案，然后细化每个提案的位置并预测其类别。Fast R-CNN （Girshick， 2015）使用选择性搜索（Uijlings 等人， 2013）生成前景建议并完善 R-CNN （Girshick 等人， 2014） Head 中的建议。更快的R-CNN（任等人，2015）提出了区域提案网络，该网络实时生成高质量的提案。Cascade R-CNN （Cai &Vasconcelos， 2018）迭代使用具有不同标签分配阈值的多个 R-CNN 头来获得高质量的检测盒。级联 RPN（Vu 等人，2019 年）通过系统地解决传统 RPN 的局限性，提高了区域建议的质量和检测性能，该 RPN 启发式地定义锚点并将特征与锚点对齐。Libra R-CNN （Pang 等人， 2019）试图解决样本级、特征级和客观级的不平衡问题。Grid R-CNN （Lu 等人， 2019）采用网格引导的定位机制进行准确的目标检测，而不是传统的边界框回归。

端到端对象检测。成熟的端到端目标检测器基于稀疏候选和多级细化。关系网络（胡等人，2018）和DETR（Carion等人，2020）直接输出预测，无需任何手工制作的分配和后处理程序，实现了出色的性能。DETR利用一组稀疏的对象查询与全局图像特征进行交互。得益于全局注意力机制（Vaswani 等人， 2017）以及预测与地面实况对象之间的二分匹配，DETR 可以丢弃 NMS 程序，同时实现卓越的性能。引入 Deformable-DETR （Zhu 等人， 2020）是为了将每个对象查询限制在参考点周围的一小组关键采样点，而不是特征图中的所有点。稀疏R-CNN（Sun等人，2020a）从一组固定的稀疏学习对象提案开始，并迭代地对对象识别头进行分类和定位。Adaptive Clustering Transformer （Zheng 等人， 2020）提出通过 LSH 近似聚类来提高 DETR 编码器的注意力。UP-DETR（Dai 等人， 2020）通过自监督方法提高了DETR的收敛速度。TSP（Sun 等人， 2020b）分析了共注意力和二分匹配是 DETR 收敛缓慢的两个主要原因。SMCA（Gao 等人， 2021）利用自注意力和共注意力机制探索全局信息，以实现快速收敛和更好的准确性性能。

7. 结论

按位置成本分配阳性样本在概念上是直观的，并且迄今为止在对象检测中得到了普及。然而，在这项工作中，我们惊讶地发现，这种广泛使用的方法却是端到端探测器的障碍。此外，还考虑了分类成本，以前的探测器可以立即实现端到端检测。我们的研究结果发现，在目标检测中定义正样本这个臭名昭著的问题的答案非常简单：在每次训练迭代中，只选择一个可以最大限度地减少训练损失的正样本是“正确的”。