ATSS论文阅读笔记

Louise^

已于 2022-08-11 15:57:10 修改

阅读量508

点赞数

文章标签：人工智能算法深度学习

于 2022-08-10 18:17:16 首次发布

本文链接：https://blog.csdn.net/qq_62679853/article/details/126264489

版权

focs与retinanet

(1)正负样本的定义方式不同。 RetinaNet根据IOU来选择正负样本，FCOS则利用空间和尺度约束来选择样本。

RetinaNet利用IoU将不同金字塔层次的锚盒分成正负两部分。首先将每个物体的最佳锚盒和IoU > θp标记为正，然后将IoU < θn的锚盒视为负，最后在训练中忽略其他锚盒。

如图1(b)所示，FCOS使用空间和尺度约束从不同的金字塔层划分锚点。它首先将地面真值框内的定位点作为候选正样本，然后根据每个金字塔第3级定义的尺度范围从候选中选择最终的正样本，最后那些未被选择的定位点为负样本。

如图1所示，FCOS首先使用空间约束来寻找空间维度上的候选正样本，然后使用尺度约束来选择尺度维度上的最终正样本。相反，RetinaNet利用IoU直接同时选择空间和尺度维度上的最终正样本。

(2)回归状态：RetinaNet通过回归矩形框的偏移量2个角点偏置进行预测框位置和大小，而FCOS是基于中心点预测四条边和中心点的距离进行预测框位置和大小。

atss:利用物体的中心点或区域来定义正数，然后预测从正数到物体边界的四个距离。我们把这种无锚检测器称为基于中心的方法

基于锚和无锚检测器的本质区别实际上是如何定义正和负训练样本。

•提出一种自适应训练样本选择，根据对象的统计特征自动选择正、负训练样本。

•演示在图像的每个位置平铺多个锚点来检测对象是一个无用的操作。

•在MS COCO上实现最先进的性能，而不引入任何额外的开销。

在推理阶段，采用与训练阶段相同的方法调整输入图像的大小，然后通过整个网络转发，以输出带有预测类的预测包围盒。然后，我们利用预设的评分0.05过滤出大量的背景包围盒，然后输出每个特征金字塔的前1000个检测结果。最后，应用非最大抑制(NMS)与每个类的IoU阈值0.6来生成每个图像的最终前100个自信检测。

基于锚点的检测器(32.5%)和无锚点检测器(37.8%)之间的部分AP差距源于FCOS中提出或使用的一些通用改进，如在头部中添加GroupNorm[62]，使用GIoU[48]回归损失函数，限制地面真值盒[56]中的正样本，引入中心分支[56]，并为每层特征金字塔添加一个可训练标量[56]。这些改进也可以应用于基于锚的检测器，因此它们不是基于锚和无锚方法的本质区别。我们将它们逐个应用到RetinaNet (#A=1)，以排除这些实现上的不一致。

在应用了这些通用的改进之后，基于锚的RetinaNet (#A=1)和无锚的FCOS之间只有两个区别。一是关于检测中的分类子任务，即如何定义正样本和负样本。另一个是关于回归子任务，即从一个锚框或锚点开始的回归。

RetinaNet利用IoU将不同金字塔层次的锚盒分成正负两部分。首先将每个物体的最佳锚盒和IoU > θp标记为正，然后将IoU < θn的锚盒视为负，最后在训练中忽略其他锚盒。如图1(b)所示，FCOS使用空间和尺度约束从不同的金字塔层划分锚点。它首先将地面真值框内的定位点作为候选正样本，然后根据每个金字塔第3级定义的尺度范围从候选中选择最终的正样本，最后那些未被选择的定位点为负样本。

如图1所示，FCOS首先使用空间约束来寻找空间维度上的候选正数，然后使用尺度约束来选择尺度维度上的最终正数。相反，RetinaNet利用IoU直接同时选择空间和尺度维度上的最终正。

对于RetinaNet (#A=1)，使用空间和尺度约束策略而不是IoU策略将AP性能从37.0%提高到37.8%。对于FCOS，如果使用IoU策略选择阳性样本，AP性能从37.8%下降到36.9%，如表2第二列所示。这些结果表明，正样本和负样本的定义是锚基和无锚检测器的本质区别。

对于正样本，RetinaNet的回归起始状态是一个方框，而FCOS是一个点。

如第3 - 6行所述，在每一层金字塔上，我们根据L2距离选取k个中心最接近g中心的锚盒。假设有L个特征金字塔层次，gt将有k × L个候选正样本。在此之后，我们计算这些候选数据和ground-truth之间的IoU，在第7行中g为Dg，其均值和标准差在第8行和第9行中分别计算为mg和vg。有了这些统计数据，这个基本事实g的IoU阈值在第10行中为tg = mg+vg。最后，我们选择这些IoU大于或等于阈值tg的候选者作为最终的正样本，在第11 - 15行。值得注意的是，我们还将正样本的中心限制在ground-truth框内，如第12行所示。此外，如果将一个锚框分配给多个ground-truth box，则会选择IoU最高的那个。剩下的是负样本。