Authors
Jifeng Dai,Yi Li,Kaiming He,Jian Sun
代季峰
代码里还有百度云盘的连接,为国人考虑的真周到~
(更新,作者又给出了end2end版本,现有三版code 包括mxnet版: https://github.com/daijifeng001/R-FCN )
Abstract
本文提供了region-based,fully convolutional networks,用于快速精确的目标检测。Fast或者Faster在per-region的时候都需要subnetwork很多次,比如region通过fc层,本文希望可以将几乎所有的计算都可以共享。提出了position-sensitive score maps来处理图像分类时的translation-invariance和目标识别时的translation-variance。R-FCN可以将ResNet等全卷积图片分类器转换为目标识别用。可以达到比faster rcnn快2.5-20倍。
1 Introduction
现有的目标检测网络大多数分为两部分:全卷积网络+RoIl之后的不再进行计算共享的网络。但是现在的state of the art 图片分类的网络ResNet,googlenet都是全卷积网络(googLeNet在训练时不是)。我们想在目标检测方面也利用全卷积网络,但是之前的尝试都是精度比较差,在ResNet的文章里http://blog.csdn.net/bea_tree/article/details/51735788,插入了RoI pooling layer 提高了精度,可是却降低了速度,因为在计算每一个RoI时计算不共享(下图是fast的,faster多了RPN)。
我们需要设置RoIl-wise subnetwork的原因是图像分类时的translation-invariance和目标识别时的translation-variance的矛盾:
1. 图像分类,希望图片中的物体无论怎么变化都可以被识别,深度卷积网络在这方面做的很好;
2. 在object detection中,物体的定位是需要translation-variance,比如目标变动的时候需要产生与candidate box的相应的合理关系。
Locally adaptive learning for translation-variant MRF image priors
而我们推测越深的卷积网络对于translation越不敏感。
本文提出了一种Region-based Fully Convolutional Network (R-FCN),其结构是FCN中的一种,为了将translation variance 包含进FCN,我们用FCN的输出设计了一组 position sensitive score maps,它包含物体的位置信息,其顶端设有RoI Poolinglayer 来处理位置信息,之后再没有权重层
2 our approach