RFBNet - ECCV2018 - Object Detection

最新推荐文章于 2024-03-25 10:02:02 发布

huangpg丶

最新推荐文章于 2024-03-25 10:02:02 发布

阅读量476

点赞数

分类专栏： Computer Vision

本文链接：https://blog.csdn.net/u013978977/article/details/84001797

版权

Computer Vision 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Paper： Receptive Field Block Net for Accurate and Fast Object Detection

Link: https://arxiv.org/abs/1711.07767

Code: https://github.com/ruinmessi/RFBNet

From: ECCV2018, Beihang University

一、 Abstract

目前物体检测的方法大致可以分为two-stage和one-stage两类。two-stage方法分为提取候选框和分类两步，而one-stage方法去掉提取候选框阶段直接对输入图片进行分类和回归。

当前one-stage方法中检测效果的提升主要通过增加网络结构的层数（ResNet101）来实现，这样做会增加很大的计算量；而使用比较小的网络结构虽然能满足速度的需求，但检测效果却被人诟病。本文中方法的切入点就是在使用较少层数的网络结构中，通过加入手工设计的模块方法(RFBNet)，从而在较快速度前提下提升检测效果。

Insight-1 ：受到人类视觉系统感受野结构的启发，作者设计了RFB结构来模拟生物结构。

Insight-2 ：将RFB加入到SSD模型中取得了很好的效果。

二、 Method

上图所示为人类视觉系统感受野结构示意图。由左侧坐标(A)可以看出在人类视觉系统中，随着离心率的增加，感受野在不断变大。右侧图示(B)感受野的分布规律。

基于以上背景知识，作者设计了RFB结构去模拟人类视觉系统感受野结构。示意图如下：

该结构参考Inception结构并加入了空洞卷积（dilated convolution），使用不同kerner size的卷积核控制感受野大小，再使用不同膨胀率的空洞卷积控制离心率，从而模仿出了人类视觉系统相关结构。如示意图右侧所示，上图为人类视觉系统感受野结构示意图，下图为RFB结构输出的特征图。具体的RFB网络结构如下图所示：

如上图所示，RFB结构具有两个版本，非常容易理解这里不多做介绍。作者比较了几种模型中感受野的分布情况，如下图所示：

作者将RFB结构加入SSD模型中，网络结构图如下所示：

三、 Experiments

1. Pascal VOC 2007

2. MS COCO

3. Ablation Study

参考

Liu, Songtao, Di Huang, and Yunhong Wang. "Receptive Field Block Net for Accurate and Fast Object Detection." arXiv preprint arXiv:1711.07767 (2017).

huangpg丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RFBNet - ECCV2018 - Object Detection

Paper： Receptive Field Block Net for Accurate and Fast Object DetectionLink: https://arxiv.org/abs/1711.07767Code: https://github.com/ruinmessi/RFBNetFrom: ECCV2018, Beihang Univ...
复制链接

扫一扫