论文地址:R-FCN: Object Detection via Region-based Fully Convolutional Networks
R-FCN是在Faster R-CNN上进行的改进
主干网络更换为ResNet-101,去掉最后的global average pooling和FC层,将最后一层原本2048channel的feature map使用1*1降维到1024channel的feature map
然后使用最后的feature map用RPN进行RoI的提取
把每个RoI划分为k*k个bins,然后对每个bin进行vote,最后判断这个RoI是否存在object和是哪个class,然后最后在使用和faster R-CNN同样的bounding box offset回归
可以看到最后一层1024channel的feature map,使用RPN得到RoIs,然后再用个channel的conv进行操作得到
feature map,其中k为bin的划分数量,c为需要识别的种类数量,然后找到每个RoI相对应的
feature map上的一部分进行Position-sensitive RoI pooling,得到一个C+1个channel的feature map,这个feature map也对应到k*k的划分,可以根据图上对应的颜色看出,也就是最后的position-sensitive score maps
Position-sensitive RoI pooling:
相当于是对 feature map中RoI对应区域每个channel进行average pooling得到这个bin的score 然后放到对应的position-sensitive score maps,然后在用average pooling进行vote得到最后的C+1 channel的特征向量再放到softmax中和进行bounding box的offset回归