ATSS(仅供参考)

本文分析了基于锚点和无锚点目标检测器的差异,指出关键区别在于正负样本定义。提出ATSS方法,自动根据目标统计特征选择正负样本,有效提升检测器性能,缩小两种方法间差距。实验表明,ATSS不仅适用于基于锚点的检测器,也能优化无锚点检测器,且在MS COCO数据集上实现了50.7%的AP,无需额外开销。
摘要由CSDN通过智能技术生成

Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection — CVPR2020

(通过自适应训练样本选择缩小基于锚的检测和无锚检测之间的差距)

Shifeng Zhang1,2 , Cheng Chi2,3 , Yongqiang Yao4 , Zhen Lei1,2 , Stan Z. Li1,2

1 CBSR, NLPR, CASIA  2 UCAS  3 AIR, CAS  4 BUPT

几年来,基于Anchor的检测器一直占据着目标检测的主导地位。近来,由于FPN和Focal Loss的提出,无锚检测器变得流行。在本文中,我们首先指出,基于锚点的检测与不基于锚点的检测之间的本质区别实际上是如何定义正向训练样本和负向训练样本,这导致了它们之间的性能差距。如果他们在训练过程中对正样本和负样本采用相同的定义,无论从一个box还是一个点回归,最终的表现都没有明显的差异。这说明如何选择正、负训练样本对当前的目标检测具有重要意义。然后,我们提出了一种自适应训练样本选择(ATSS),可以根据目标的统计特征自动选择正样本和负样本。它显著地提高了anchor-based 和anchor-free 检测器的性能,并缩小了两者之间的差距。最后,我们讨论了在图像上每个位置平铺多个anchors 来检测目标的必要性。在MS COCO上进行的大量实验支持了我们前面提到的分析和结论。利用新引入的ATSS,我们在不增加任何开销的情况下,将最先进的检测器大幅度提高到了50.7%AP。该代码可从https://github.com/sfzhang15/ATSS获得。

1. Introduction

目标检测是计算机视觉领域一个长期存在的课题,其目的是检测预定义类别的目标。准确的目标检测将对图像识别和视频监控等多种应用产生深远的影响。近年来,随着卷积神经网络(CNN)的发展,基于anchor的检测方法已成为目标检测的主流,一般分为一阶段方法[36,33]和两阶段方法[47,9]。这两种方法都是先在图像上放置大量的预置anchors,然后对anchors的类别进行预测,并对这些anchors的坐标进行一次或多次的细化,最后输出这些细化后的anchors作为检测结果。由于两阶段方法对锚点的细化程度是单阶段方法的几倍,因此两阶段方法的计算结果更准确,而单阶段方法的计算效率更高。常用检测基准的最新结果仍然由基于anchor的检测器持有。

但是,由于FPN [32]和Focal Loss [33]的出现,近年来学术界关注的焦点转向了无锚检测器。无锚检测器可以通过两种不同的方式直接查找没有预设锚的物体。一种方法是首先定位几个预定义或自学习的关键点,然后限制对象的空间范围。我们称这种类型的无锚检测器为基于关键点的方法[26,71]。 另一种方法是利用目标的中心点或区域定义正值,然后预测从正值到目标边界的四个距离。 我们称这种无锚检测器为基于中心的方法[56,23]。 这些无锚检测器能够消除与锚相关的那些超参数,并取得了与基于锚的检测器相似的性能,使得它们在泛化能力方面更具潜力。

在这两类无锚检测器中,基于关键点的方法遵循与基于锚的检测器不同的标准关键点估计流程。但是,基于中心的检测器与基于anchor的检测器相似,它将点作为预设样本而不是anchor boxes来处理。以一阶段基于anchor的检测器RetinaNet [33]和基于中心的无锚检测器FCOS [56]为例,它们之间存在三个主要区别:(1)每个位置平铺的anchors数量。 RetinaNet在每个位置平铺多个anchor boxes ,而FCOS在每个位置平铺一个anchor 。(2)正负样本的定义。RetinaNet使用交并比(IoU)来进行正、负采样,而FCOS则利用空间和尺度约束来选择样本。(3)回归开始状态。RetinaNet从预设anchor box回归目标anchor box,而FCOS从anchor point定位目标。如[56]中所述,无锚的FCOS比基于锚的RetinaNet具有更好的性能,值得研究这三个差异中的哪一个是性能差距的重要因素。在这三个差异中,哪一个是造成性能差距的重要因素是值得研究。

在本文中,我们通过严格排除两者之间的所有实现不一致之处,以公平的方式研究基于锚和无锚方法之间的差异。从实验结果可以看出,这两种方法的本质区别在于对正训练样本和负训练样本的定义不同,导致了两者之间的性能差距。如果他们在训练过程中选择相同的正负样本,则无论从一个box还是从一个 point回归,最终的性能都不会出现明显的差距。因此,如何选择正训练样本和负训练样本值得进一步研究。受此启发,我们提出了一种新的自适应训练样本选择(ATSS)方法,该方法可以根据目标特征自动选择正样本和负样本。它缩小了基于anchor的检测器和anchor-free的检测器之间的差距。此外,通过一系列的实验,可以得出结论,不需要在图像上的每个位置平铺多个anchors 来检测目标。在MS COCO [34]数据集上的大量实验支持了我们的分析和结论。最新的AP 50.7%是通过应用新引入的ATSS而不产生任何开销实现的。这项工作的主要贡献可以概括为:

●指出基于锚点的检测器和不带锚点的检测器之间的本质区别实际上是如何定义正训练样本和负训练样本。

●提出自适应训练样本选择,以根据目标的统计特征自动选择正负训练样本。

●证明在图像上的每个位置平铺多个anchors以检测目标是一项吃力不讨好的操作。

●在MS COCO上实现最先进的性能,而不引入任何额外的开销。

3. Difference Analysis of Anchor-based and Anchor-free Detection(基于锚和无锚检测的差异分析)

在不失一般性的前提下,采用了具有代表性的基于锚的RetinaNet [33]和无锚的FCOS [56]来剖析它们之间的差异。在本节中,我们将重点讨论最后两个差异:正/负样本定义和回归开始状态。剩下的一个区别是:每个位置平铺的anchors数量,将在后续章节中讨论。因此,我们只需为RetinaNet每个位置平铺一个方形anchor,这与FCOS非常相似。在其余部分中,我们首先介绍实验设置,然后排除所有实现上的不一致之处,最后指出基于anchor的检测器与anchor的检测器之间的本质区别。

3.1实验设置

数据集。所有实验都是在具有挑战性的MS COCO [34]数据集上进行的,该数据集包括80个对象类。按照惯例[33,56],trainval35k分割中的所有115K图像均用于训练,而minival分割中的所有5K图像均用作分析研究的验证。我们还将主要结果提交给评估服务器,以获得测试-开发部分的最终性能。

训练细节。我们使用具有5级特征金字塔结构的ImageNet [49]预训练的ResNet-50 [16]作为主干。新添加的层以与[33]相同的方式

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值