Paper: Receptive Field Block Net for Accurate and Fast Object Detection
Link: https://arxiv.org/abs/1711.07767
Code: https://github.com/ruinmessi/RFBNet
From: ECCV2018, Beihang University
目录
一、 Abstract
目前物体检测的方法大致可以分为two-stage和one-stage两类。two-stage方法分为提取候选框和分类两步,而one-stage方法去掉提取候选框阶段直接对输入图片进行分类和回归。
当前one-stage方法中检测效果的提升主要通过增加网络结构的层数(ResNet101)来实现,这样做会增加很大的计算量;而使用比较小的网络结构虽然能满足速度的需求,但检测效果却被人诟病。本文中方法的切入点就是在使用较少层数的网络结构中,通过加入手工设计的模块方法(RFBNet),从而在较快速度前提下提升检测效果。
Insight-1 : 受到人类视觉系统感受野结构的启发,作者设计了RFB结构来模拟生物结构。
Insight-2 : 将RFB加入到SSD模型中取得了很好的效果。
二、 Method
上图所示为人类视觉系统感受野结构示意图。由左侧坐标(A)可以看出在人类视觉系统中,随着离心率的增加,感受野在不断变大。右侧图示(B)感受野的分布规律。
基于以上背景知识,作者设计了RFB结构去模拟人类视觉系统感受野结构。示意图如下:
该结构参考Inception结构并加入了空洞卷积(dilated convolution),使用不同kerner size的卷积核控制感受野大小,再使用不同膨胀率的空洞卷积控制离心率,从而模仿出了人类视觉系统相关结构。如示意图右侧所示,上图为人类视觉系统感受野结构示意图,下图为RFB结构输出的特征图。具体的RFB网络结构如下图所示:
如上图所示,RFB结构具有两个版本,非常容易理解这里不多做介绍。作者比较了几种模型中感受野的分布情况,如下图所示:
作者将RFB结构加入SSD模型中,网络结构图如下所示:
三、 Experiments
1. Pascal VOC 2007
2. MS COCO
3. Ablation Study
参考
- Liu, Songtao, Di Huang, and Yunhong Wang. "Receptive Field Block Net for Accurate and Fast Object Detection." arXiv preprint arXiv:1711.07767 (2017).