R-FCN 论文阅读笔记
目录
1.Motivation
多角度理解
- 从平移不变与可变性方面的理解:作者分析了图片分类任务中需要CNN平移不变性 与 对象检测任务中需要的平移可变性的困境;作者也认为越深的网络,对于位置预测越不敏感(因为CNN的平移不变性导致的),而ROI的设计是region-specific操作,破坏了这种平移不变性,使其对位置预测有效。本文提出一个位置敏感得分map技术,将类别和位置信息融入到ROI Pooling中。
- 从计算消耗方面的理解:原始的Faster RCNN在RPN后附加一个网络用于ROI-wise(region-wise)的对象检测,这个附加的网络Batch大小是ROI数目,这样由于没有共享每个ROI的计算,从而导致的Faster RCNN的速度低,因而R-FCN意在解决这个问题。
- 主要思想:受启发于FCN,进行像素级的识别,利用群众投票的方式,对ROI Pooling后的fmaps直接获取类别和位置,相当于使得类别和位置信息的获取是cost-free,且也相当于共享了两个任务的conv层。
2. How to do it?
个人感觉:本文提出的位置敏感得分map,相当于对RPN的输出做了改进,使其能直接获取隐含对象位置信息。
- Faster RCNN vs. R-FCN : 注意看stage5的位置,R-FCN将RPN输出的ROI作用到stage5后的fmaps上,获取类别和位置预测,这样两个任务共享所有的conv层;而Faster RCNN则将RPN的ROI作用到stage4后的fmaps上,然后在用stage5对ROIPooling后的fmaps进行类别和位置预测。
- 另外需要注意,R-FCN从最后一个conv层的输出上使用ROIPooling,直接获得类别或位置的得分(vote方式获取),所以没有是cost-free的。
- 还要注意,R-FCN的ROIPooling与Faster RCNN的ROIPooling操作的不同。
3. See how it works.
上图实例给出了R-FCN预测过程的实例展示。
4. What did I learn from it?
- 收获1:本文提出了conv层的平移不变性与位置检测需要的平移可变性之间矛盾问题,并以此问题出发来设计本文的工作;这个矛盾问题这的深思。
- 收获2:本文将fmaps设计成score map,将位置信息或类别信息,隐藏到fmaps中,这样的想法很值得学习,值得深思。
参考文献
1:https://www.cnblogs.com/lillylin/p/6277094.html
[2]:http://papers.nips.cc/paper/6465-r-fcn-object-detection-via-region-based-fully-convolutional-networks.pdf