论文笔记 | R-FCN: Object Detection via Region-based Fully Convolutional Networks

Authors

Jifeng Dai,Yi Li,Kaiming He,Jian Sun
这里写图片描述
代季峰
代码里还有百度云盘的连接,为国人考虑的真周到~
(更新,作者又给出了end2end版本,现有三版code 包括mxnet版: https://github.com/daijifeng001/R-FCN

Abstract

本文提供了region-based,fully convolutional networks,用于快速精确的目标检测。Fast或者Faster在per-region的时候都需要subnetwork很多次,比如region通过fc层,本文希望可以将几乎所有的计算都可以共享。提出了position-sensitive score maps来处理图像分类时的translation-invariance和目标识别时的translation-variance。R-FCN可以将ResNet等全卷积图片分类器转换为目标识别用。可以达到比faster rcnn快2.5-20倍。

1 Introduction

现有的目标检测网络大多数分为两部分:全卷积网络+RoIl之后的不再进行计算共享的网络。但是现在的state of the art 图片分类的网络ResNet,googlenet都是全卷积网络(googLeNet在训练时不是)。我们想在目标检测方面也利用全卷积网络,但是之前的尝试都是精度比较差,在ResNet的文章里http://blog.csdn.net/bea_tree/article/details/51735788,插入了RoI pooling layer 提高了精度,可是却降低了速度,因为在计算每一个RoI时计算不共享(下图是fast的,faster多了RPN)。
这里写图片描述
我们需要设置RoIl-wise subnetwork的原因是图像分类时的translation-invariance和目标识别时的translation-variance的矛盾:
1. 图像分类,希望图片中的物体无论怎么变化都可以被识别,深度卷积网络在这方面做的很好;
2. 在object detection中,物体的定位是需要translation-variance,比如目标变动的时候需要产生与candidate box的相应的合理关系。

Locally adaptive learning for translation-variant MRF image priors

而我们推测越深的卷积网络对于translation越不敏感。

本文提出了一种Region-based Fully Convolutional Network (R-FCN),其结构是FCN中的一种,为了将translation variance 包含进FCN,我们用FCN的输出设计了一组 position sensitive score maps,它包含物体的位置信息,其顶端设有RoI Poolinglayer 来处理位置信息,之后再没有权重层

2 our approach

这里写图片描述
这里写图片描述

评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值