通过自适应训练样本选择来弥补基于锚的检测和无锚检测之间的差距

摘要
1. 介绍
2. 相关工作
- 2.1. 基于锚的检测器
- 2.2. 无锚检测器
3. 基于锚和无锚检测的差异性分析
4. 自适应训练样本选择算法
5. 结论

摘要

多年来，目标检测一直由基于锚的检测器主导。近年来，由于FPN和focal损失的提出，无锚检测器得到了广泛的应用。本文首先指出基于锚的检测与无锚检测的本质区别在于如何定义正训练样本和负训练样本，这导致了两者之间的性能差距。如果他们在训练时采用相同的正样本和负样本定义，无论从一个框回归还是从一个点回归，最终的表现都没有明显的差异。这说明如何选择正训练样本和负训练样本对于当前的目标检测器来说是非常重要的。然后，我们提出了一种自适应训练样本选择（ATSS）算法，根据目标的统计特征自动选择正样本和负样本。它大大提高了基于锚和无锚检测器的性能，弥补了两者之间的差距。最后讨论了在图像上每个位置平铺多个锚点来检测目标的必要性。在MS COCO上进行的大量实验支持我们上述的分析和结论。通过新引入的ATSS，我们在不引入任何开销的情况下将最先进的检测器提高到50.7%的AP。

1. 介绍

目标检测是计算机视觉领域一个由来已久的课题，目的是检测预定义类别的目标。准确的目标检测将对包括图像识别和视频监控在内的各种应用产生深远的影响。近年来，随着卷积神经网络(CNN)的发展，目标检测主要是基于锚点的检测器，一般分为单阶段方法(SSD, RetinaNet)和双阶段方法(Faster R-CNN, R-FCN)。两种方法都是先在图像上平铺大量的预设锚点，然后预测类别，并对这些锚点的坐标进行一次或多次的refine，最后输出这些refine的锚点作为检测结果。由于双阶段法比单阶段法对锚点的refine多出好几倍，因此双阶段法的计算结果更加精确，而单阶段法的计算效率更高。基于锚的检测器仍然在共同检测基准上保持着最先进的结果。

由于FPN[32]和Focal损失[33]的出现，最近的学术关注已经转向无锚检测器。无锚检测器通过两种不同的方式直接找到不需要预设锚的目标。一种方法是先定位几个预定义的或自学习的关键点，然后绑定目标的空间范围。我们把这种无锚检测器称为基于关键点的方法(Cornernet, 71)。另一种方法是使用目标的中心点或区域来定义正例，然后预测从正例的到目标边界的四个距离。我们将这种无锚检测器称为基于中心的方法(FCOS, Foveabox)。这些无锚检测器能够消除与锚点相关的超参数，并取得了与基于锚点的检测器相似的性能，在泛化能力方面具有更大的潜力。

在这两种无锚检测器中，基于关键点的方法采用标准关键点估计管道，这与基于锚点的检测器不同。然而，基于中心的检测器与基于锚点的检测器类似，它们将点视为预先设置的样本，而不是锚框。以基于单阶段锚的检测器RetinaNet[33]和基于中心的无锚检测器FCOS[56]为例，它们之间有三个主要区别:(1)每个位置平铺锚的数量。RetinaNet为每个位置平铺几个锚框，而FCOS为每个位置平铺一个锚点¹。(2)正样本和负样本的定义。RetinaNet采用交并比(IoU) 来确定正例和负例，而FCOS利用空间和尺度约束来选择样本。(3)回归的初始状态。RetinaNet从预设的锚框返回目标边界框，而FCOS从锚点定位目标。[56]报道，无锚FCOS取得了比基于锚的RetinaNet更好的性能，这三个差异中哪一个是造成性能差距的关键因素值得研究。

在本文中，我们严格排除了基于锚的方法和无锚方法之间所有实现的不一致性，从而公平地研究了它们之间的差异。从实验结果可以看出，这两种方法的本质区别在于正训练样本和负训练样本的定义，这导致了它们之间的性能差距。如果他们在训练时选择相同的正样本和负样本，无论从一个框回归还是从一个点回归，最终的表现都没有明显的差距。因此，如何选择正训练样本和负训练样本值得进一步研究。在此基础上，我们提出了一种新的自适应训练样本选择算法(ATSS)，可以根据目标的特征自动选择正样本和负样本。它弥补了基于锚的检测器和无锚检测器之间的差距。此外，通过一系列的实验可以得出，在图像上每个位置平铺多个锚点来检测目标是没有必要的。在MS COCO[34]数据集上的广泛实验支持我们的分析和结论。先进的AP 50.7%是通过应用新引入的ATSS实现的而且没有引入任何开销。本工作的主要贡献可以总结为:

基于锚的检测器和无锚检测器的本质区别在于如何定义正训练样本和负训练样本。
提出自适应训练样本选择算法，根据目标的统计特征自动选择正训练样本和负训练样本。
阐述了在图像上每个位置平铺多个锚来检测目标是无用的操作。
在没有引入任何额外开销的情况下实现MS COCO的最先进的性能。

2. 相关工作

目前基于CNN的目标检测主要有基于锚的和无锚的两种。前者可分为双阶段法和单阶段法，后者分为基于关键点的方法和基于中心的方法。

2.1. 基于锚的检测器

双阶段方法。 Faster R-CNN[47]的出现，确立了双阶段基于锚的检测器的优势地位。Faster R-CNN由一个单独的区域提议网络(RPN)和一个区域预测网络(R-CNN)[14，13]组成来检测目标。之后，提出了大量的算法改进其性能，包括结构设计和改革[4， R-FCN， Cascade R-CNN， ME R-CNN， Scale-aware trident networks ]，上下文和注意力机制[Inside-outside net， 51， Structure inference net， 7， Thundernet]，多尺度训练和测试[54， Autofocus]，训练策略和损失函数[G-CNN， OHEM， A-fast-rcnn， 17]，特征融合和增强[Hypernet， FPN]，更好的提议和平衡[55， Libra R-CNN]。目前，在标准的检测基准上，两阶段基于锚的方法仍然保持着最先进的结果。

单阶段的方法。 随着SSD[36]的出现，单阶段基于锚的检测器因其计算效率高而受到广泛关注。SSD在卷积网络中在多尺度层上展开锚框，直接预测目标类别和锚框偏移量。之后，在不同的方面提出了大量的工作来提高它的性能，比如从不同层融合上下文信息[RON， DSSD， Scale-transferrable]，从头训练[DSOD， Scratchdet]，引入新的损失函数[Focal loss，ap-loss]，锚refinement和匹配[Single-shot refinement， Freeanchor]，架构设计[Parallel FPN， FP reconfiguration]，特征enrichment和对齐[Receptive field block net， 68， 60， Enriched
feature guided refinement network， Dynamic anchor feature selection]。目前，基于单阶段锚的方法可以在更快的推理速度下达到与基于双阶段锚的方法非常接近的性能。

2.2. 无锚检测器

基于关键点的方法。 这种无锚方法首先定位几个预定义的或自学习的关键点，然后生成边界框来检测目标。CornerNet[26]将目标边界框检测为一对关键点(左上角和右下角)，而CornerNet- lite[27]引入了CornerNet-Saccade和CornerNet-Squeeze来提高速度。Grid R-CNN[39]的第二阶段利用FCN的位置敏感优点预测网格点来定位目标，然后在网格的引导下确定边界框。ExtremeNet[71]检测四个极值点(最上、最左、最下、最右)和一个中心点来生成目标边界框。Zhu等[70]利用关键点估计来找到目标的中心点，并回归到，包括尺寸、3D位置、方向和姿态的所有其他属性。CenterNet[11]扩展了CornetNet作为一个triplet，而不是一对关键点，以提高查准率和召回率。RepPoints[65]将目标表示为一组样本点，并学习以一种bound目标的空间范围和indicate语义上重要的局部区域的方式排列自己。

基于中心的方法。 这种无锚方法以目标的中心(如中心点或part)为前景来定义正例，然后预测正例到目标边界框四周的距离进行检测。YOLO[45]将图像划分为S×S网格，包含目标中心的网格单元负责检测该目标。DenseBox[20]使用一个位于目标中心的填充圆来定义正例，然后预测从正例到目标边界框的边界的4个距离来确定位置。GA-RPN[59]将目标中心区域的像素定义为正例，用于预测Faster R-CNN目标的位置、宽度和高度。FSAF[72]在RetinaNet中附加一个具有在线特征选择的无锚分支。新添加的分支将目标的中心区域定义为正的，以便通过预测到其边界的四个距离来定位它。FCOS[56]将目标边界框内的所有位置都视为正的，四个距离和一个新的centerness分数来检测目标。CSP[37]只将目标框的中心点定义为正，以检测具有固定纵横比的行人。FoveaBox[23]将目标中间部分的位置视为正，有四段距离进行检测。

3. 基于锚和无锚检测的差异性分析

在不失一般性的前提下，采用了代表性的基于锚的RetinaNet[33]和无锚的FCOS[56]来分析它们的差异。在本节中，我们将重点讨论最后两个不同之处：正/负样例定义和回归起始状态。剩下的一个区别：每个位置平铺的锚的数量将在后面的部分讨论。因此，我们为RetinaNet每个位置平铺一个方形锚点，这与FCOS非常相似。在剩下的部分，我们首先介绍了实验设置，然后排除了所有的实现不一致，最后指出了基于锚的检测器和无锚检测器的本质区别。

3.1. 实验设置

数据集。 所有实验都是在MS COCO[34]具有挑战性的数据集上进行的，该数据集包含80个目标类。按照惯例[33，56]，将trainval35k中的所有115K幅图像用于训练，minival中的所有5K幅图像用于分析研究的验证集。我们还将主要结果提交给评估服务器，以获得test-dev上的最终性能。

训练细节。 我们使用ImageNet[49]预训练的ResNet-50[16]，以5层特征金字塔结构为骨干。新添加的层的初始化方式与[33]相同。对于RetinaNet， 5层特征金字塔中的每一层都与一个8S尺度的方形锚相关联，其中S为总步长。在训练过程中，我们调整输入图像的大小，使其短边为800，长边小于或等于1333。整个网络采用随机梯度下降(SGD)算法，以0.9动量、0.0001权重衰减和batch size16进行90K迭代训练。我们将初始学习率设为0.01，分别在60K和80K迭代时衰减0.1。除非另有说明，实验中使用了上述训练细节。

推理细节。 在推理阶段，我们按照训练阶段的方法重新调整输入图像的大小，然后将其放入整个网络正向传播，输出带有预测类的预测边界框。然后使用预设的0.05分过滤掉大量的背景边框，然后输出每个特征金字塔的前1000个检测结果。最后，使用非最大抑制(NMS)和将每个类的IoU阈值设为0.6来为每幅图像生成前100个置信检测结果。

3.2. 去除不一致性

我们将每个位置只有一个方形锚框的基于锚的检测器RetinaNet标记为RetinaNet (#A=1)，这与无锚检测器FCOS几乎相同。然而，据[56]报道，FCOS比RetinaNet (#A=1)在MS COCO minival子集的AP性能上有很大的优势，例如37.1%对32.5%。此外，FCOS还作了一些改进，包括将centerness移到回归分支，使用GIoU损失函数，以及采用相应的步长对回归目标进行归一化。这些改进将FCOS的AP性能从37.1%提高到37.8%²，使得差距更大。然而，基于锚的检测器(32.5%)与无锚的检测器(37.8%)之间的AP差距一部分是由于FCOS提出或使用的一些universal改进措施造成的，如在头部添加GroupNorm[62]，使用GIoU[48]回归损失函数，真值框中的限制性正样本[56]和为每个级别的特征金字塔添加可训练标量[56]。这些改进也可以应用到基于锚的检测器上，因此它们并不是基于锚和无锚方法的本质区别。我们将它们逐一应用于RetinaNet (#A=1)上，以排除这些实现不一致的情况。如表1所示，这些无关的差异将基于锚的RetinaNet提高到37.0%，与无锚的FCOS仍有0.8%的差距。至此，在消除了所有无关的差异后，我们可以很好地探究基于锚的检测器和无锚检测器之间的本质差异。

表1:MS COCO minival set上RetinaNet和FCOS实施不一致性分析。“#A=1”表示每个位置有一个方形锚框。

3.3. 本质区别

在应用了这些通用的改进之后，这仅是基于锚的RetinaNet (#A=1)和无锚的FCOS之间的两个区别。一是关于检测中的分类子任务，例如定义正样本和负样本的方法。另一个是关于回归子任务的，例如从一个锚框或一个锚点开始的回归。

分类。 如图1(a)所示，RetinaNet利用IoU将来自不同金字塔级别的锚框划分为正例和负例。在训练过程中，首先将每个目标的最佳锚框和IoU>θ_p的锚框标记为正，然后将IoU<θ_n的锚框标记为负，最后忽略其他锚框。如图1(b)所示，FCOS使用空间和尺度约束划分来自不同金字塔层次的锚点。首先将真值框内的锚点视为候选正样本，然后基于为每个金字塔层次³定义的尺度范围，从候选样本中选择最终的正样本，最后未选择的锚点为负样本。

图1:正例(1)和负例(0)的定义。蓝框、红框和红点分别是真实、锚框和锚点。(a) RetinaNet使用IoU同时在空间和尺度维度上选择正例(1)。(b) FCOS首先在空间维度中找到候选正例(?)，然后在尺度维度中选择最终正例(1)。

如图1所示，FCOS首先使用空间约束在空间维度中找到候选的正例，然后使用尺度约束在尺度维度中选择最终的正例。与此相反，RetinaNet利用IoU在空间和尺度维度上同时直接选择最终的正样本。这两种不同的样本选择策略产生了不同的正样本和负样本。如表2中RetinaNet (#A=1)的第一列所示，使用空间和尺度约束策略而不是IoU策略可以将AP性能从37.0%提高到37.8%。对于FCOS，如果采用IoU策略选择正样本，AP性能从37.8%下降到36.9%，如表2第二列所示。这些结果表明，正样本和负样本的定义是基于锚的检测器和无锚检测器的本质区别。

图2:(a)蓝点和框为目标的中心和边界，红点和框为锚点的中心和边界。(b) RetinaNet从具有四个offsets的锚框回归。© FCOS从锚点回归，有四个distances。

表2:MS COCO minival set上RetinaNet和FCOS的差异分析(%)。

回归。 在确定正样本和负样本后，由正样本回归到目标位置，如图2(a)所示。RetinaNet从锚框回归，定位框和目标框之间有四个offsets，如图2(b)所示，而FCOS从锚点回归到目标的边界有四个distances，如图2( c )所示。这意味着对于一个正样本，RetinaNet的回归起始状态为一个方框，而FCOS为一个点。但是，从表2的第一和第二行可以看出，当RetinaNet和FCOS采用相同的样本选择策略，得到一致的正样本/负样本时，无论从一个点开始回归还是从一个框开始回归，最终的性能都没有明显的差异，例如37.0%对36.9%和37.8%对37.8%。这些结果表明，回归起始状态不是本质区别，而是一个无关区别。

结论。 通过这些较为公平的实验表明，基于单阶段锚的检测器与基于中心的无锚检测器的本质区别在于如何定义正训练样本和负训练样本，这对当前的目标检测具有重要意义，值得进一步研究。

4. 自适应训练样本选择算法

在训练目标检测器时，我们首先需要定义正样本和负样本来进行分类，然后使用正样本回归。根据前面的分析，前者是关键，并且无锚检测器FCOS改进了这一步骤。它引入了一种新的定义正例和负例的方法，比传统的基于IoU的策略取得了更好的效果。在此启发下，我们深入研究了目标检测中最基本的问题:如何定义正训练样本和负训练样本，并提出了自适应训练样本选择算法(ATSS)。与传统策略相比，该方法几乎没有超参数，对不同的设置具有较强的鲁棒性。

4.1. 描述

以往的样本选择策略都有一些敏感的超参数，如基于锚的检测器的IoU阈值和无锚检测器的尺度范围。设置好这些超参数后，所有的真值框都必须根据固定的规则选择自己的正样本，这些规则适用于大多数目标，但会忽略一些外部目标。因此，这些超参数的不同设置将产生相当不一致的结果。

为此，我们提出了一种不需要超参数，根据目标的统计特征自动划分正样本和负样本的ATSS方法。算法1描述了该方法是如何为输入图像工作的。对于图像上的每个真值框g，我们首先找出它的候选正样本。如第3至6行所述，在每级金字塔上，我们根据L2距离选择其中心最接近g中心的k个锚框。假设有L级特征金字塔，真值框g将有k×L个候选正样本。然后在第7行计算这些候选正样本与真值g之间的IoU为D_g，在第8和第9行分别计算其均值和标准差m_g和v_g。根据这些统计信息，在第10行根据t_g= m_g+v_g得到了这个真值g的IoU阈值。最后，在第11至15行我们选择IoU大于或等于阈值t_g的候选样本作为最终正样本。值得注意的是，我们还将正样本的中心限制在真值框上，如第12行所示。此外，如果一个锚框被分配给多个真值框，则会选择IoU最高的那个。剩下的都是负样本。我们的方法背后的一些动机解释如下。

算法1 自适应训练样本选择算法

Input：
	G是图像上的一组真值框
	L是特征金字塔等级的数量
	Ai是来自于第i个金字塔等级的一组锚框
	k是一个相当健壮的超参数，默认值为9
Output：
	P是一组正例
	N是一组反例
for 每个真值g∈G do
	为真值g的候选正样本建立一个空集合Cg←∅;
	for 每个等级i∈[1，L] do
		Si←基于L2距离从Ai中选择中心最接近真值g中心的k个锚;
		Cg = Cg∪Si;
	end for
	计算Cg和g的IoU：Dg = IoU(Cg，g);
	计算Dg的均值：mg = Mean(Dg);
	计算Dg的标准差：vg = Std(Dg);
	计算真值g的IoU阈值：tg = mg + vg;
	for 每个候选c∈Cg do
		if IoU(c，g) ≥ tg且c的中心在g内 then
			P = P∪c;
		end if
	end for
end for
N = A – P;
return P，N;

在这里插入图片描述
图3:ATSS的说明。每个级别都有一个带IoU的候选。(a)高m_g和高v_g的真值。(b)低m_g和低v_g的真值。

根据锚框和目标之间的中心距离选择候选目标。 对于RetinaNet来说，当锚框的中心离目标中心越近时，IoU越大。对于FCOS来说，离目标中心越近的定位点将产生更高质量的检测结果。因此，离目标中心越近的锚点是更好的候选点。

使用平均值和标准差的总和作为IoU的阈值。 一个目标的IoU的均值m_g是对该目标预设锚的适当性的衡量。图3(a)所示的高m_g表明它具有高质量候选，IoU阈值应该较高。图3(b)所示的低m_g表明，大多数候选IoU质量较低，IoU阈值应该较低。此外，目标IoU标准差v_g是对哪一层适合检测该目标的度量。图3(a)所示的高v_g意味着存在一个特别适合该目标的金字塔级别，v_g加上m_g会获得一个高阈值，从而仅从该级别选择正例。图3(b)所示的低v_g意味着有几个金字塔级别适合这个目标，添加v_g以获得一个低阈值，以便从这些级别选择适当的正例。使用均值m_g和标准偏差v_g的之和，IoU阈值t_g可以根据目标的统计特性，自适应地从适当的金字塔级别中为每个目标选择足够多的正例。

将正样本的中心限制在目标上。 中心在目标外的锚是较差的候选，会被目标外的特征预测，它们不利于训练，应该排除。

保持不同目标之间的公平性。 根据统计理论4，理论上约有16%的样本处于置信区间[m_g+v_g，1]。虽然候选目标的IoU不是标准的正态分布，统计结果显示每个目标有大约0.2∗kL个正样本，尺度、高宽比和位置是不变的。相比之下，RetinaNet和FCOS策略倾向于对更大的目标选取更多的正样本，导致不同目标之间的不公平。

保持几乎无超参数。 我们方法只有一个超参数k，随后的实验证明它对k的变化非常不敏感，所提出的ATSS可以认为几乎没有超参数。

4.2. 验证

表3:在MS COCO minival集上验证所提方法(%)。ATSS和中心采样是我们所提方法的完整版本和精简版本。

基于锚的RetinaNet。 为了验证我们的自适应训练样本选择算法对基于锚的检测器的有效性，我们在改进的RetinaNet (#A=1)中使用它来代替传统的策略。如表3所示，它AP的性能提高2.3%了，AP₅₀的性能2.4%，AP₇₅的性能2.9%，AP_S的性能2.9%，AP_M的性能2.1%和AP_L的性能2.7%。这些改进的主要原因是基于统计特征为每个真值自适应地选择正样本。由于我们的方法只重新定义了正样本和负样本而没有产生任何额外的开销，所以这些改进可以认为是无代价的。

无锚FCOS。 该方法也适用于两种不同版本的无锚FCOS: 轻量版和完整版。对于轻量版，我们将ATSS的一些想法应用到FCOS中，例如，用我们的方法替换选择候选正例的方法。FCOS将目标框中的锚点视为候选点，这会导致大量低质量的正例。相比之下，我们的方法在每个金字塔层中为每个真值选择top k = 9个候选点。我们方法的轻量版即中心采样已经合并到FCOS的官方代码中，这将FCOS的AP从37.8%提高到38.6%，如表3所示。然而，在轻量版中仍然存在尺度范围的超参数。

对于完整版，我们让FCOS中的锚点成为8S尺度的锚框来定义正样本和负样本，然后仍然将这些正样本回归到像FCOS这样的锚点上的目标。如表3所示，它的AP性能显著提高了1.4%，AP₅₀提高了1.7%，AP₇₅提高了1.7%，AP_S提高了0.6%，AP_M提高了1.3%，AP_L提高了2.7%。值得注意的是，这两个版本在空间维度上选择了相同的候选目标，但在沿尺度维度从候选中选择最终正例的方式不同。如表3的最后两行所示，完整版本(ATSS)在不同指标上的性能大大优于轻量版本(中心采样)。这些结果表明，因可以沿着尺度维度从候选样本中选择正例，自适应的方法比FCOS中固定的方法更好。

4.3. 分析

使用本文提出的自适应训练样本选择算法来训练目标检测器只涉及一个超参数k和一个相关锚框的设置。本小节对它们逐一进行分析。

表4:MS COCO minival集上不同超参数k值分析。

超参数k。 我们进行了几个实验来研究超参数k的鲁棒性，k用于从每个金字塔level中选择候选正样本。如表4所示，在[3，5，7，9，11，13，15，17，19]中选取不同的k值来训练检测器。我们观察到，所提方法在k从7变化到17相当不敏感。k太大(如19)会导致低质量的候选太多，略微降低性能。太小的k(例如，3)会导致准确率明显下降，因为太少的候选正样本会导致统计不稳定。总的来说，唯一的超参数k是相当健壮的，所提出的ATSS几乎可以看作是无超参数的。

表5:在MS COCO minival 集上固定纵横比1:1的不同锚尺度的分析(%)。

表6:MS COCO minival集上固定尺度8S下不同锚纵横比分析(%)。

锚的大小。 所介绍的方法利用锚框来定义正例，我们也研究了锚大小的影响。在之前的实验中，每个位置平铺一个8S的方形锚(S表示金字塔的总步幅)。如表5所示，我们在[5，6，7，8，9]中选取不同尺度的方锚进行了一些实验，性能比较稳定。同时，对8S锚框进行了不同纵横比的实验，如表6所示。性能也不受这种变化的影响。结果表明，该方法对不同的锚点设置具有较强的鲁棒性。

4.4. 对比

我们将表8中MS COCO test-dev子集上的最终模型与其他最先进的目标检测器进行比较。根据前人的研究[33，56]，这些实验采用多尺度训练策略，即，在训练期间将图像较短的那条边随机调整到640到800之间的尺度。同时，迭代总次数翻倍至180K，学习率降低点分别为120k和160k。其他设置与前面提到的设置一致。

如表8所示，我们的方法加ResNet-101实现了43.6%的AP，没有使用任何技巧，优于相同主链的所有方法，包括Cascade R-CNN [5] (42.8% AP)、C-Mask RCNN [7] (42.0% AP)、RetinaNet [33] (39.1% AP)和RefineDet [66] (36.4% AP)。通过使用更大的骨干网络ResNeXt-32x8d-101和ResNeXt-64x4d-101[63]，我们可以将所提方法的AP精度进一步提高到45.1%和45.6%。由于引入了改进的多尺度训练测试策略，我们45.6%的AP结果除了比SNIP [54] (45.7% AP)低0.1%外，超过了所有无锚和基于锚的检测器。由于我们的方法是关于正样本和负样本的定义，它是对现有大多数技术的兼容和补充。我们进一步将可变形卷积网络(DCN)[10]用到ResNet和ResNeXt骨干以及最后一层检测塔上。对于ResNet-101、ResNeXt-32x8d-101和ResNeXt-64x4d-101，DCN持续地将AP性能分别提高到46.3%、47.7%和47.7%。使用单模型和单尺度测试达到了47.7%的最佳结果，大大优于之前所有的检测器。最后，在多尺度测试策略下，我们的最佳模型达到50.7%的AP。

4.5. 讨论

以往的实验都是基于每个位置只有一个锚的RetinaNet。基于锚的检测器和无锚检测器之间还有一个未被探索的区别:每个位置平铺锚的数量。实际上，原始的RetinaNet在每个位置(标记为RetinaNet (#A=9))铺有9个锚点(3个尺度×3个纵横比)，达到36.3%的AP，如表7的第一行所示。此外，表1中的通用改进也可用于RetinaNet (#A=9)，将AP性能从36.3%提高到38.4%。改进后的RetinaNet (#A=9)在不使用所提ATSS的情况下，其性能优于RetinaNet (#A=1)，即表7所示38.4%，表1所示为37.0%。这些结果表明，在传统的基于IoU的样本选择策略下，每个位置增加锚点是有效的。

在MS COCO minival数据集上为每个位置设置数量不同多个锚的结果(%)

然而，使用我们提出的方法后，会得出相反的结论。具体来说，提出的ATSS也在AP上将RetinaNet (#A=9) 提升了0.8%，在AP₅₀上提升了1.4%，在AP₇₅上提升了1.1%，实现了与RetinaNet (#A=1)相似的性能，如表7的第三和第六行所示。此外，当我们将锚尺度或纵横比从3更改为1时，结果几乎没有变化，如表7的第4行和第5行所示。换句话说，只要选取适当的正样本，无论在每个位置平铺多少个锚点，结果都是一样的。我们认为，在我们提出的方法下，每个位置平铺多个锚点是一种无用的操作，需要进一步研究以发现其正确的作用。

5. 结论

在这项工作中，我们指出阶段基于锚的和基于中心的无锚检测器的本质区别实际上在于正训练样本和负训练样本的定义。说明在目标检测训练中如何选择正样本和负样本是关键。在此启发下，我们深入研究了这个基本问题，提出了自适应训练样本选择算法，根据目标的统计特征自动划分正训练样本和负训练样本，弥补了基于锚的检测器和无锚检测器之间的差距。我们还讨论了每个位置平铺多个锚点的必要性，并表明在当前情况下这可能不是一个有用的操作。在具有挑战性的基准测试上进行的大量实验表明，该方法可以在不引入任何额外开销的情况下实现最先进的性能。

FCOS中的一个点等于RetinaNet中一个锚框的中心，因此我们称它为锚点。将一对锚点和锚框关联到特征映射的同一位置来进行分类回归。 ↩︎
这个37.8%的AP结果不包括中心样本改进，这是我们的贡献，已经合并到FCOS中，将在第4.2节引入。 ↩︎
在FCOS中有几个预设的超参数来定义5个金字塔级别的范围：P3为[m2， m3]， P4为[m3， m4]， P5为[m4， m5]， P6为[m5， m6]， P7为[m6， m7]。 ↩︎