End-to-End Object Detection with Fully Convolutional Network 论文阅读翻译

End-to-End Object Detection with Fully Convolutional Network 论文阅读翻译

论文下载地址:点击此链接跳转.
这是博主自己在github整理的目标检测方向论文的合集,应该算比较全,2020ECCV(细分版), 2020NIPS已更新完毕,欢迎下载…

好久没更了,来一篇,另此篇在github的ppt文件夹下有做好的ppt,欢迎使用。
推荐阅读作者解析:点击此链接跳转.

一、Abstract

       基于全卷积网络的主流检测器性能较好,它们中的大多数仍需使用手动设计的非极大值抑制(NMS)后处理,这有碍完全的端到端的训练。本文作者对去掉NMS进行了分析,结果表明适当的标签分配起着至关重要的作用。因此对于全卷积检测器,作者引入了一种叫做感知预测“一对一”(POTO)的标签分配策略以进行分类实现端到端检测,获得与NMS相当的性能。此外,作者还提出了一种简单的3D Max 滤波(3DMF)以利用多尺度特征并提高局部区域卷积的可辨性。借助这些技术,作者的端到端框架可与许多sota检测器相媲美。

二、Introduction

       当前多数的主流检测器都使用了一些手工设计的操作,如基于anchor的标签分配和非极大值抑制。最近,一些方法开始通过使用距离感知和基于分布的标签分配来消除预定义的anchor框集。尽管它们取得了显著进步,但去掉手工设计的NMS后处理仍是个极大的挑战,它极大阻碍了完全的端到端训练。
       为解决这个问题,后续提出了Learnable NMS,Soft NMS和CenterNet等用于改进重复框删除,但它们都没有给出一个有效的端到端训练策略。同时,还提出了许多基于循环神经网络的方法,通过使用自回归解码器对每个实例预测一个边界框。这些方法对边界框的预测提供自然序列建模。但它们只在一些小数据集上进行了评估,而且迭代方式使推理过程效率低下。
最近DETR引入了一种基于二分匹配的训练策略,通过并行解码器实现了端到端检测。与许多检测器相比都具有竞争优势。但DETR目前所需的训练时间较长,而且覆盖范围较小,在小目标上的检测性能也相对较低。为此,本文探讨了一个新的视角:全卷积网络能否实现具有竞争性的端到端目标检测。
       在本文中,作者从标签分配和网络架构两个维度回答了这个问题。如图一所示,大多数全卷积检测器都采用的一对多标签分配规则,即对于一个GT实例分配许多预测框作为前景样本。这种规则提供了足够多的前景样本,能够获得强大且鲁棒的特征表示。
在这里插入图片描述
       然而太多的前景样本会导致单个实例存在很多的重复预测框,阻碍了端到端检测。为证明这一点,作者首先对现有的手工设计标签分配策略进行了比较。作者发现一对一标签分配策略在消除删除重复框的后处理操作中起至关重要的作用。但是,手工设计的一对一分配仍会存在缺点。固定的分配可能会引起歧义问题并降低特征的可辨性,因为实例的预定义区域可能并不是用于训练的最佳选择。为解决这个问题,作者提出了一种感知预测“一对一”(POTO)标签分配方法,该方法动态地根据分类和回归的质量分配前景样本。
       此外,对于基于fpn的检测器,广泛的实验表明,重复的边界框主要来自相邻尺度中置信度最高的预测的邻近区域。因此作者设计了一个3D最大滤波(3DMF),将其作为一个可微分的模块嵌入到fpn头中。该模块通过在相邻尺度上使用一个简单的3D最大滤波算子来改善卷积在局部区域的判别力。为了对特征表示学习提供足够的监督,作者又对一对多分配进行了修改以作为辅助损失。
       在使用提出的技术后,作者的端到端检测框架获得了能够和SOTA相比较的效果。在COCO数据集上,作者的基于FOCS框架和ResNeXt-101 backbone的端到端检测器明显优于使用NMS的baseline 1.1%。并且作者的端到端检测器对于拥挤检测具有更强的鲁棒性和灵活性。为了证明其在拥挤场景中的优越性,作者在CrowdHuman数据集上做了实验。在ResNet-50 backbone下,作者的端到端检测器比使用NMS的FCOS能够有3.1% AP50和5.6% mMR的绝对增益。

三、Methodology

3.1 Analysis on Label Assignment

       为揭示标签分配对端到端目标检测的影响,作者在COCO数据集上构建了几种对传统标签分配策略的消融实验。如表一所示
在这里插入图片描述
       所有的实验都是基于的FCOS架构,移除了FCOS的中心分支以统一网络结构。结果表明了一对多分配在特征表示上的优越性和一对一分配对于丢弃NMS的潜力。

3.1.1 One-to-many Label Assignment

       由于NMS后处理在密集预测框架中被广泛采用,一对多标签分配成为分配训练目标的传统方法。充分的前景样本使特征表示具有较强的鲁棒性。但是当我们在丢弃NMS时,由于一对多标签分配策略的冗余前景样本,重复的错误预测可能会导致性能大幅下降,例如FCOS的mAP会降低28.4%。因此检测器仅靠一对多分配很难实现具有竞争性的端到端检测。

3.1.2 Hand-designed One-to-one Label Assignment

       MultiBox和YOLO都展示了对密集预测框架应用一对一标签分配的潜力。在本文中,作者对两种一对一标签分配策略进行了评估来揭示其与丢弃NMS间的联系。这两策略由两个广泛使用的一对多标签分配修改得到:anchor 规则和center规则。
       具体来说,anchor规则基于retinanet,每个GT实例只分配给IOU值最大的anchor。center规则基于FCOS,每个GT实例只分配给预定义特征层中最接近实例中心的像素。其他anchor或像素会被设为背景样本。
       如表1所示,与一对多标签分配相比,一对一标签分配大大减少了使用与不使用NMS的全卷积检测器间的差距,达到了合理的性能。例如基于center规则的检测器相比FCOS baseline能够达到21.5%的map绝对收益。同时由于避免了NMS在复杂场景下的错误抑制,召回率也进一步的提高。然而仍存在两个未解决的问题。首先,当应用一对一的标签分配时,有和没有NMS的检测器间的性能差距仍不容忽视。其次,由于对每个实例的监督较少,一对一标签分配的性能仍然低于FCOS基线。

3.2 Our Methods

       在本文中,作者提出了一种混合标签分配和一种3D最大滤波(3DMF)。混合标签分配是由提出的预测感知一对一标签分配(POTO)和修改后的一对多标签分配(辅助loss)构成。通过这些技术,作者的端到端框架可以丢掉NMS的后处理,保留较强的特征表示。

3.2.1 Prediction-aware One-to-one Label Assignment

       手工设计的一对一标签分配一般会遵循一个固定的规则。但是对于复杂场景中的各种实例,这种规则可能不是最优的,如对偏心对象使用中心规则。因此,如果分配策略将次优预测分配为唯一的前景样本会显著增加网络收敛的难度,导致更多的false-positive预测。为此作者提出了一个新的规则叫做预测感知一对一(POTO)标签分配来根据预测质量动态地分配样本。
       以Ψ作为所有预测的序号集。G和N对应于GT实例和预测的数量,在密集检测器中一般G<<N。 π ^ \hat{π} π^表示N个预测的G排列。
       POTO的目标是对预测框产生一组合适的排列 π ^ \hat{π} π^来作为前景样本。训练loss为Eq. 1,其中包括前景损失 L f g L_{fg} Lfg和背景损失 L b g L_{bg} Lbg
在这里插入图片描述
       其中R( π ^ \hat{π} π^)表示前景样本所对应的索引集。对于第i个GT, c i c_i ci为其类别标签, b i b_i bi为其边界框坐标。而对于第 π ^ ( i ) \hat{π}(i) π^(i)个预测, p ^ π ^ ( i ) \hat{p}^{\hat{π}(i)} p^π^(i) b ^ π ^ ( i ) \hat{b}^{\hat{π}(i)} b^π^(i)分别对应其预测分类分数和预测框坐标。
       为实现较优的端到端检测,作者想要找到一个合适的标签分配策略 π ^ \hat{π} π^。如Eq. 2所示,之前的工作是将其视为二元匹配问题处理,以前景损失作为匹配代价,通过匈牙利算法快速求解。
在这里插入图片描述
       但是前景损失通常会需要额外的权重来缓解优化问题,如训练样本不平衡、多任务联合训练等。如表1所示,该属性使训练loss不是匹配成本的最优选择。因此如Eq. 3和Eq. 4所示,作者提出了一个更干净有效的公式(POTO)来寻找更好的分配。
在这里插入图片描述
        Q i , π ( i ) Q_{i,π(i)} Qi,π(i)∈[0, 1]表示作者所提出的第i个GT与第π(i)个预测的匹配质量,有同时考虑到空间先验、分类置信度和回归质量。 Ω i Ω_i Ωi表示第i个GT的候选预测集,即空间先验。空间先验通常在训练阶段被广泛应用。例如FCOS采用的中心采样策略,即只考虑GT实例中心部分的预测作为前景样本。作者在POTO中应用它以实现更高的性能,但这不是丢弃NMS所必须的,实验中发现只要α设的好也可以不要空间先验。为达到平衡,作者用分类得分 p ^ π ( i ) ( c i ) \hat{p}_{π(i)}(c_i) p^π(i)(ci)和回归质量IOU( b i b_i bi, b ^ π ( i ) \hat{b}_{π(i)} b^π(i))的加权几何平均来定义质量。超参α∈[0,1]用于调整分类和回归之间的比率,默认采用α=0.8。如表1所示,POTO不仅缩小了与NMS的差距,而且还提高了性能。

3.2.2 3D Max Filtering

       除了标签分配策略,作者还尝试设计一个有效的架构来实现更具竞争力的端到端检测。为此作者首先揭示了重复预测的分布。如表2所示,对于基于FPN的检测器,当将NMS分别用于每个尺度时,性能会出现明显的下降。此外作者发现重复预测主要来自于置信度最高的预测的邻近空间区域。因此作者提出了一个新模块3D最大滤波(3DMF)来抑制重复预测。
在这里插入图片描述
       卷积是一种具有平移不变性的线性运算,在不同的位置对相似的图形产生相似的输出。然而这个属性会对删除重复预测产生很大的阻碍,因为对于密集预测检测器来说,同一个实例的不同预测通常具有相似的特征。最大滤波是一种基于秩的非线性滤波器,可用于补偿卷积在局部区域的判别力。
       基于关键点的检测器也使用了最大滤波器,如CenterNet和Cornernet,作为一个新的后处理步骤来替代非极大值抑制。这也揭示了其用于删除重复预测的潜力,但这种方法不可训练也阻碍了其的有效性和端到端的训练。并且最大滤波器只考虑单尺度的特征,不适用于基于FPN的检测器。
       因此,作者将最大滤波扩展到多尺度,称为3D最大滤波,来对FPN每个尺度的特征都进行变换,即在特征图每个通道都分别使用3D最大滤波。
在这里插入图片描述

在这里插入图片描述
       如上式所示,给定一个尺度为s的输入特征 x s x^s xs,首先采用双线性算子将相邻尺度τ上的特征插值到输入特征 x s x^s xs的相同大小。然后对尺度s及其相邻尺度τ的特征图的空间位置i的φ*φ空间范围各自求最大值,然后再各尺度最大值作比较取最大。这个操作可由3d最大池化操作实现。
       此外,为了将3D最大滤波嵌入到现有的框架并实现端到端训练,作者提出了一个新模块,如图3所示。该模块利用max滤波来选择局部区域中激活值最高的预测,并增强与其他预测的区别。由此特性,如图2所示,作者采用3DMF来细化粗糙密集预测,抑制重复预测。此外所有的模块都是由简单的可微算子构造的,计算开销很小。
在这里插入图片描述
在这里插入图片描述

3.2.3Auxiliary Loss

       在使用NMS时,如表1所示,POTO和3DMF的性能仍然不如FCOS。这可能是因为一对一的标签分配提供的监督较少,使网络难以学习到强且鲁棒的特征表示。它可能会进一步减少分类的判别性,从而导致性能下降。为此,作者引入了一种基于一对多的标签分配以提供更加充分的监督,如图2所示。
       与ATSS类似,作者的辅助loss采用了使用改进后的一对多标签分配的focal loss。具体来说,一对多标签分配首先根据Eq. 4中提出的匹配质量在每个FPN stage将前9个预测作为候选。然后将匹配质量超过统计阈值的候选样本分配为前景样本。统计阈值是通过所有候选框的匹配质量的均值和标准差的总和来计算。

四、Experiments

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值