DetectoRS-最强目标检测网络 54.7AP | Detecting Objects with Recursive Feature Pyramid and Switchable Atrous

最新目标检测论文,从检测的骨干网络设计出发(最近基于backbone的修改,貌似更有效!同比的由SCNet),效果直接SOTA!
论文地址:https://arxiv.org/pdf/2006.02334.pdf
Github地址(基于mmdet):https://github.com/joe-siyuan-qiao/DetectoRS

在这里插入图片描述

Abstract:

一些现有的目标检测器已经证明了,通过使用两次观察和思考的机制,能够表现出优秀的性能。 在本文中,我们探索了将这种机制用于目标检测的主干设计中。 在宏观级别,我们提出了递归特征金字塔,它结合了从特征金字塔网络到自下而上的骨干层的额外反馈连接。 在微观层面上,我们提出了可切换的Atrous卷积,它以不同的atrous速率对特征进行卷积,并使用switch函数收集结果。 将它们组合在一起就是DetectoRS,这将大大提高目标检测的性能。 在COCO测试集上,DetectoRS达到了用于目标检测的54.7%的box AP,用于实例分割的47.1%的mask AP和用于全景分割的49.6%的PQ。

Introduction:

在这里插入图片描述
基于人类视觉系统的启发,“两次观察与思考的机制”在目标检测任务中,被证明具有优秀的表现。如上表所示,作者将这种设计理念在用于目标检测的神经网络主干设计中进行探索。 具体在宏观和微观两个层面上都部署了该机制,从而,本文提出的DetectoRS大大提高了最新的物体检测器HTC 的性能,同时保持了类似的推理速度。可以看出有了7.7个点的提升
在这里插入图片描述
宏观层面来说,本文提出的递归特征金字塔(RFP)建立在特征金字塔网络(FPN)之上。通过将额外的反馈连接从FPN层合并到自下而上的骨干层,如上图a所示。 将递归结构展开为顺序实现,该主干网络可以将图像查看两次或更多次。此外,RFP递归增强了FPN以生成越来越强大的表示形式。类似于深度监督网络,反馈连接将直接从检测器头接收梯度的功能带回到自下而上的骨干网的低层,以加快训练速度并提高性能。我们提出的RFP实现了两次思考的顺序设计,其中自下而上的骨干网和FPN运行了多次,其输出功能取决于前面步骤中的功能。

在微观层面上,论文提出了可切换空洞卷积(SAC),它可将相同的输入特征与不同的空洞率进行卷积,并使用切换功能来收集结果。上图b显示了SAC概念的图示。开关功能在空间上是相关的,即,特征图的每个位置可能具有不同的开关来控制SAC的输出。为了在检测器中使用SAC,我们将自下而上的主干网中的所有标准3x3卷积层都转换为SAC,从而大大提高了检测器性能。此外,在SAC中使用了一种新的权重锁定机制,其中除了可训练的差异之外,不同圆环卷积的权重相同。

效果总结:
以ResNet-50 为骨干网络的DetectoRS将HTC 分别提高了7.7%box AP和5.9%mask AP。 此外,骨干网络为ResNeXt-101-32x4d 可实现最优的54.7%box AP和47.1%mask AP。 以Wide-ResNet-41 [10]为骨干的DeepLabv3 + 中,DetectoRS为全景分割创造了49.6%PQ的新记录。

Recursive Feature Pyramid(RFP):

在这里插入图片描述
上图(a)所示为FPN的经典机构
上图(b)中的连接线为RFP提出的反馈连接方式
上图(c)展示了RFP按顺序展开的网络结构。具体来说,就是在经过两次FPN结构的之间加了个反馈连接。其中,反馈连接为第一次FPN各层输出经过ASPP输出与主干网络的各层连接。最终的输出为两次FPN输出结果的融合。接下来,具体介绍一下实现细节。

A.论文中的ASPP结构:

在此模块中,有四个并行分支,输入特征x,然后将它们的输出沿通道维连接在一起,以形成R的最终输出。其中,三个分支使用空洞率大小不同的卷积层,后跟ReLU层, 输出通道数为1 /4输入通道数。 最后一个分支使用全局平均池化层压缩特征,然后使用1x1卷积层和ReLU层将压缩后的特征转换为1 / 4大小(逐通道)的特征。 最后,四个分支结果进行拼接输出。三个分支中的卷积层具有以下配置:卷积核大小= [1、3、3],空洞率= [1、3、6],填充= [0、3、6]

B.ASPP输出与主干网络反馈连接结构:
在这里插入图片描述
以ResNet主干网络为例,其具有四个阶段,每个阶段都由几个相似的残差块组成。 我们只对每个阶段的第一个残差块进行更改,如图3所示。将输入修改为Input与反馈连接的RFP Features。其中,RFP Features添加了另一个卷积层,其内核大小设置为1。该层的权重初始化为0以确保当我们从预训练权值文件加载权重时,该层的权重没有任何实际影响。

C.两次FPN输出特征融合结构:
在这里插入图片描述
如图5所示,对第二层FPN输出特征进行1X1卷积核Sigmoid函数,生成注意力权重。最后对两次FPN输出特征进行权重融合

Switchable Atrous Convolution:

在这里插入图片描述

SAC的总体架构如上图所示,它具有三个主要组件:在SAC组件之前和之后附加了两个全局上下文模块。 应用方式为,主干网络中的3X3标准卷积都替换为SAC

A.Switchable Atrous Convolution结构:
在这里插入图片描述
公式如(4)所示,对于一个空洞率为1的标准卷积转化为SAC结构,就是切换函数S(x)对两个空洞率大小不一致卷积的加权和。如图中所示:切换函数S(x)的实现方式为,5X5的GAP加上1x1卷积。两个卷积的空洞率分别为1和3。

B,锁定机制:

目标检测器通常使用预训练权值来初始化权重。 但是,对于从标准卷积层转换而来的SAC层,缺少较大atrous率的权重。 由于可以用相同的权重以不同的空洞率粗略地检测出不同尺度的目标,因此自然地用预训练模型中的权重来初始化丢失的权重是很自然的。所以,本文提出了一种锁定机制,即将一个卷积权重设置为w,将另一个卷积权重设置为w + dw。 其中w来自预训练的权值,并且dw初始化为0。当固定dw = 0时,我们观察到AP下降了0:1%。 但是没有锁定机制的单独dw会使AP降低很多。

C.Global Context结构:

使用原因源于大量实验结果的对比,其结构与SE模块很像,两个主要区别是:
1)我们只有一个卷积层,没有任何非线性层;
2)输出被加回到主流上,而不是乘以 输入由Sigmoid计算的重新校准值。

Experiments:

1.Ablation Studies:RFP+SAC可以提升7个点!
在这里插入图片描述
在这里插入图片描述

2.Object Detection COCO基准:54.7 AP

在这里插入图片描述
3.Instance Segmentation:47.1 AP
在这里插入图片描述
4.Panoptic Segmentation:49.6PQ
在这里插入图片描述

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值