论文导读:DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution

论文导读:DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution

Abstract

许多现在的目标检测方法通过两次寻找搜索展示卓越的性能,这篇文章的主要原理是在 目标检测的backbone设计上。在宏观层面,我们提出Recursive Feature Pyramid(递归特征金字塔):包括从FPN提出额外的反馈连接进入up-bottom backbone layers。从微观层面,我们提出Switchable Atrous Convolution:conv 具有不同 atrous rate 的特征,并使用开关功能收集结果。

Introduction

许多有名的两阶段目标检测器,像Faster R-CNN,首先输出物体建议框,然后基于区域特征去提取检测到到物体。沿着同样的方向,Cascade R-CNN 建立了一个多阶段检测器,后续的检测器heads与更多的选择性实例进行训练。
我们的方法,在宏观层面:Recursive Feature Pyramid 基于FPN顶部,从FPN提出额外的反馈连接到up-bottom backbone layers。将递归结构展开为顺序执。类似于Cascade R-CNN中的cascade检测器,选择性的运用实例进行训练,我们的RFP递归加强FPN去创建更多强表达力的特征。像Deeply-Supervised Nets一样,反馈连接生成的特征从检测器头部直接接收梯度到低级别的bottom-up backbone中,进而加快训练速度和提高精度。
在微观方面,我们提出Switchable Atrous Convolution(SAC),通过同样输入特征和不同的atrous rate进行卷积,并且在收集结果处添加了开关功能。这个开关功能依赖于空间性,每一个特征映射地区可以有不同的开关区控制SAC的输出。在检测器上使用SAC,我们转化了bottom-up backbone中所有以3*3为基准的卷积层为SAC,大量的提高了检测器的性能。一些之前的方法采取了有条件的卷积,例如结合不同结果的卷积层作为单个输出,不像这些需要从头开始的架构,SAC提出了提供一种简便转化预训练模型的标准卷积网络。此外,在SAC中使用了新的权重锁定原理,除了可训练的差异,不同atrous卷积的权重都相同。

Recursive Feature Pyramid

1.1 Recursive Feature Pyramid

回归特征金字塔是在FPN的基础上,采用反馈连接方式,将单次经过FPN的输出特征作为输入再次进入FPN(与ResNet相似)。

FPN结构如下图所示,它包含了四种结构:bottom-up,up-down,lateral connection,feature fusion.
bottom-up : 原始的FPN结构是以resnet为backbone,将输入图片经过网络结构输出为不同大小的特征图,C1,C2,C3,C4,C5在各自基础上h_size/2,w_size/2.bottom-up目的是提取出含有更多语义信息的特征图。

up-down: 将C5进行1x1卷积成P5,较少通道数(即减少了运算参数)。对P5进行最邻近上采样(h_size2,w_size2)成P4,P3,P2,目的是得到和对应的C4,C3,C2相同大小w*h尺寸矩阵。

lateral connection: 把C4,C3,C2进行1*1Conv后生成P4’,P3’,P2’,目的是得到和特征图P4,P3,P2相同通道数的特征。

feature fusion: 把经过上采样后的P4,P3,P2与经过11Conv后的P4’,P3’,P2’相加。得到的P4’‘,P3’‘,P2’‘。将相加后的结果进行33卷积,因为在简单的进行对应通道的逐位置相加会出现特征堆叠的情况,用3*3卷积结果处理后可以有效的融合相加后的特征。

RFP是把经过FPN后的特征结果反馈连接到FPN的bottom-up层作为输入的一部分,和ResNet相似,这样可以有效的融合输入特征,引导函数往更正确的方向前进,检测提高了精度。

在这里插入图片描述

1.2 ASPP as the Connecting Module

原文链接:语义分割ASPP
空洞空间卷积池化金字塔(atrous spatial pyramid pooling (ASPP))对所给定的输入以不同采样率的空洞卷积并行采样,相当于以多个比例捕捉图像的上下文。
atrous convolution

在这里插入图片描述
上图为deeplab v2的ASPP模块,deeplabv3中向ASPP中添加了BN层,其中空洞卷积的rate的意思是在普通卷积的基础上,相邻权重之间的间隔为rate-1, 普通卷积的rate默认为1,所以空洞卷积的实际大小为k + (k − 1) ( rate − 1) k+(k-1)(rate-1)k+(k−1)(rate−1),其中k为原始卷积核大小。
这篇文章是用ASPP(atrous spatial pyramid pooling)作为连接函数,如下图:
在这里插入图片描述
不是简单的将上层金字塔的输出作为输入进入下一层的迭代(这里把RFP看成由多个FPN组成的叠加网络,宏观上,每个图像金字塔和特征金字塔可以看为一层),ASPP作为中间结点(上图中绿点),通过空洞卷积函数将上层输出做运算,转化为下层输入。原文结构不再详解。如代码链接:DetectoRS-github链接

1.3 Output Update by the Fusion Module

如上图所示,Fusion Module是把上层输出和本层输出更好的融合起来,通过卷积和sigmoid激活函数。

2.Switchable Atrous Convolution

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值