《R-FCN: Object Detection via Region-based Fully Convolutional Networks》
目录:
0. 模型总结
1. 模型结构分析
2. 创新点解读
3. 实验结果分析
4. 优缺点分析
----------------------------------------------------------------
0. 模型总结(精炼)
R-FCN是一种两阶段的目标检测模型,从Faster R-CNN发展而来,改进灵感来源于全卷积神经网络FCN。改进的地方在于位置敏感得分图机制,以及RoI Pooling在网络中的位置。在检测准确率方面和检测速度方面相较于Faster R-CNN均有提升。在检测准确率方面,该提升可以归咎于对RoI Pooling之后的敏感得分图机制,解决了目标检测需要对目标平移敏感而目标区域分类需要目标平移不变性(平移不敏感)之间的矛盾,而Faster R-CNN不具备这点;在速度方面的提升在于RoI位置的变化,原来的Faster R-CNN在RoI Pooling之后还有10层卷积,用于对提取的感兴趣区域特征进行进一步的特征提取,我们知道,一张图片的感兴趣区域是很多的,这意味着有这个10层的子网络,会跑很多遍,时间成本就高了,R-FCN的做法是,将RoI Pooing移到这10层卷积之后,然后后面就用位置敏感得分图机制,保证特征性能,却又不需要每一个感兴趣区域都跑一遍10层的卷积网络,节省的运行时间成本。效率方面的提升,相当于将整个卷积网络都共享了,也就是只跑一次。
1.模型结构
图1 R-FCN模型结构视角1
图2 R-FCN模型结构视角2
模型视角1是着重体现了位置敏感得分图机制,视角2是R-FCN的全结构,也就是RP