论文导读：DetectoRS： Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution

最新推荐文章于 2023-11-06 13:46:32 发布

onebe

最新推荐文章于 2023-11-06 13:46:32 发布

阅读量1.2k

点赞数

分类专栏：论文导读文章标签：计算机视觉卷积深度学习 python

本文链接：https://blog.csdn.net/onebe/article/details/111028005

版权

论文导读专栏收录该内容

1 篇文章

订阅专栏

论文导读：DetectoRS： Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution

Abstract

许多现在的目标检测方法通过两次寻找搜索展示卓越的性能，这篇文章的主要原理是在目标检测的backbone设计上。在宏观层面，我们提出Recursive Feature Pyramid(递归特征金字塔):包括从FPN提出额外的反馈连接进入up-bottom backbone layers。从微观层面，我们提出Switchable Atrous Convolution：conv 具有不同 atrous rate 的特征，并使用开关功能收集结果。

Introduction

许多有名的两阶段目标检测器，像Faster R-CNN，首先输出物体建议框，然后基于区域特征去提取检测到到物体。沿着同样的方向，Cascade R-CNN 建立了一个多阶段检测器，后续的检测器heads与更多的选择性实例进行训练。
我们的方法，在宏观层面：Recursive Feature Pyramid 基于FPN顶部，从FPN提出额外的反馈连接到up-bottom backbone layers。将递归结构展开为顺序执。类似于Cascade R-CNN中的cascade检测器，选择性的运用实例进行训练，我们的RFP递归加强FPN去创建更多强表达力的特征。像Deeply-Supervised Nets一样，反馈连接生成的特征从检测器头部直接接收梯度到低级别的bottom-up backbone中，进而加快训练速度和提高精度。
在微观方面，我们提出Switchable Atrous Convolution(SAC)，通过同样输入特征和不同的atrous rate进行卷积，并且在收集结果处添加了开关功能。这个开关功能依赖于空间性，每一个特征映射地区可以有不同的开关区控制SAC的输出。在检测器上使用SAC，我们转化了bottom-up backbone中所有以3*3为基准的卷积层为SAC，大量的提高了检测器的性能。一些之前的方法采取了有条件的卷积，例如结合不同结果的卷积层作为单个输出，不像这些需要从头开始的架构，SAC提出了提供一种简便转化预训练模型的标准卷积网络。此外，在SAC中使用了新的权重锁定原理，除了可训练的差异，不同atrous卷积的权重都相同。

Recursive Feature Pyramid

1.1 Recursive Feature Pyramid

回归特征金字塔是在FPN的基础上，采用反馈连接方式，将单次经过FPN的输出特征作为输入再次进入FPN(与ResNet相似)。

FPN结构如下图所示，它包含了四种结构：bottom-up,up-down,lateral connection,feature fusion.
bottom-up : 原始的FPN结构是以resnet为backbone，将输入图片经过网络结构输出为不同大小的特征图，C1,C2,C3,C4,C5在各自基础上h_size/2,w_size/2.bottom-up目的是提取出含有更多语义信息的特征图。

up-down: 将C5进行1x1卷积成P5，较少通道数（即减少了运算参数）。对P5进行最邻近上采样(h_size2,w_size2)成P4,P3,P2,目的是得到和对应的C4,C3,C2相同大小w*h尺寸矩阵。

lateral connection: 把C4,C3,C2进行1*1Conv后生成P4’,P3’,P2’,目的是得到和特征图P4,P3,P2相同通道数的特征。

feature fusion：把经过上采样后的P4,P3,P2与经过11Conv后的P4’,P3’,P2’相加。得到的P4’‘，P3’‘，P2’‘。将相加后的结果进行33卷积，因为在简单的进行对应通道的逐位置相加会出现特征堆叠的情况，用3*3卷积结果处理后可以有效的融合相加后的特征。

RFP是把经过FPN后的特征结果反馈连接到FPN的bottom-up层作为输入的一部分，和ResNet相似，这样可以有效的融合输入特征，引导函数往更正确的方向前进，检测提高了精度。

在这里插入图片描述

1.2 ASPP as the Connecting Module

原文链接：语义分割ASPP
空洞空间卷积池化金字塔(atrous spatial pyramid pooling (ASPP))对所给定的输入以不同采样率的空洞卷积并行采样，相当于以多个比例捕捉图像的上下文。
atrous convolution

在这里插入图片描述
上图为deeplab v2的ASPP模块，deeplabv3中向ASPP中添加了BN层，其中空洞卷积的rate的意思是在普通卷积的基础上，相邻权重之间的间隔为rate-1, 普通卷积的rate默认为1，所以空洞卷积的实际大小为k + (k − 1) ( rate − 1) k+(k-1)(rate-1)k+(k−1)(rate−1)，其中k为原始卷积核大小。
这篇文章是用ASPP(atrous spatial pyramid pooling)作为连接函数，如下图：
在这里插入图片描述
不是简单的将上层金字塔的输出作为输入进入下一层的迭代（这里把RFP看成由多个FPN组成的叠加网络，宏观上，每个图像金字塔和特征金字塔可以看为一层），ASPP作为中间结点(上图中绿点）,通过空洞卷积函数将上层输出做运算，转化为下层输入。原文结构不再详解。如代码链接：DetectoRS-github链接