论文笔记 R-FCN: Object Detection via Region-based Fully Convolutional Networks

最新推荐文章于 2022-04-19 09:08:34 发布

潇湘_AQ

最新推荐文章于 2022-04-19 09:08:34 发布

阅读量4.6k

点赞数 1

分类专栏： Deep Learning Computer Vision Object Detection 论文笔记文章标签： R-FCN 目标检测

本文链接：https://blog.csdn.net/u012905422/article/details/53242183

版权

Deep Learning 同时被 3 个专栏收录

32 篇文章 3 订阅

订阅专栏

Computer Vision

29 篇文章 0 订阅

订阅专栏

论文笔记

25 篇文章 0 订阅

订阅专栏

插一句，我又回来啦~

这篇论文主要采用“位置敏感度图”的方法，将FCN 网络引入到目标检测中来，将图像分类和目标检测很好地结合。因此这种方法可以和很多FCN中的图像分类框架结合，比如ResNets等，使其应用到目标检测中来。本文实验了101层的ResNet在VOC数据下结果，取得了mAP 83.6%和速度 170ms一张图的结果（速度比Faster RCNN快）。代码开源：https://github.com/daijifeng001/r-fcn 代码支持在Titan，TitanX，K40，K80上跑~~下次有时间可以跑跑玩玩。

想法来源：

一般常见的目标检测主要有两个子网络：（1）一个独立于RoI的共享的全连接层子网络（2）涉及RoI决策的不共享计算的子网络。这样进行网络的分解主要来源于目标检测问题之前，人们大量地对于图像分类的研究。其中的一些经典网络如AlexNet，VGG等，在卷积子网络的结尾直接连接一个pooling层，跟着是一些全连接层（fc）。因此，图像分类网络中的pooling层也就自然而然地出现在了目标检测网络中。

随着ResNets，GoogLeNets等全连接卷积（fully convolutional）的设计网络的出现，自然而然地让作者想到将传统网络改成fully convolutional进行目标检测。为了提高精度并满足检测要求，作者在ResNet的检测流程中加入RoI pooling层到卷积之间，使得其网络可以达到对于区域特定的目标，来完成作者认为的目标检测所需要不同于分类的translation-invariant。

网络结构：

整体来说，本文在FCN网络中使用一个位置敏感的RoI pooling层，得到一个“位置敏感度图”作为输出，完成一个端到端的目标检测网络结构，其主要网络流程如下图：

图中可以清楚看出，整个R-FCN网络依旧是采用RPN+detection两个部分，分别进行候选proposal提取和检测。RPN类似于原始设计，进行前景背景的分离，而在R-FCN的结尾连接着RoI pooling层，该层产生对应于每一个RoI区域的分数。

在R-FCN的后面阶段里，所有卷积权值共享。和fast rcnn相比，主要差别就在后面跟的是ResNet，ResNet101有100个卷积层，一个pooling层一个1000类的fc层，本文为了应用在目标检测，将pooling层和fc层去除，只保留其卷积层得到的feature map，进一步产生分数图进行检测。