R-FCN: Object Detection via Region-based Fully Convolutional Networks 论文笔记_r-fcn(region-based fully convolutional networks )论-CSDN博客

本文链接：https://blog.csdn.net/Jean_0724/article/details/78147371

论文链接：论文
代码：代码
论文提出了一种基于region，但使用全卷积架构的目标检测算法。与传统的Fast/Faster R-CNN相比，其移除了全连接层，改用卷积层，因为在整张图像上共享计算，故可有效规避对每个区域独立计算所带来的重复，提高了目标检测的速度。论文的核心方法是使用对位置敏感（position-sensitive）的打分图（score maps）和RoI Pooling，从而解决图像分类中平移不变和目标检测中平移变化的不一致性问题。

网络架构

论文所提出的网络框架和可视化示意图如下所示：
这里写图片描述

由图可知，网络包含RPN和R-FCN两部分。RPN的结构和Faster R-CNN相同。对于R-FCN部分，最后一个卷积层对于每个类别产生k*k 个位置敏感的score map，分别对应 k*k 个相对位置（如从左上角至右下角），做Pooling时，每个bin只在一个score map上做聚合。
通俗的理解就是，R-FCN使用k*k 的网格来编码一个RoI的位置，每个位置先由一层feature map来编码，则C个目标类和1个背景类总共需要k*k*（C+1）个特征映射图，然后在此基础上生成长宽各为k，通道数目为C+1的score map，其每个网格记录一种空间信息，对应着上一层该类中此空间位置的feature map，其取值为此feature map在一定区域内的平均值（区域的计算方式与Faster R-CNN相似，取可变大小的bin）。Pooling的过程就是对score map的值进行投票，并针对不同的类求交叉熵，从而确定proposal的类别。
对于bbox regression，只需要将C+1替换成4即可。