Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(RCNN)
文章目录
总揽
- 由上图可以看到,RCNN分为三个部分
- 1、提取候选区域(region proposals),它采取的方式是Selective Search,选取大约2k个
- 2、对候选区域进行直接resize,使之符合CNN网络的输入要求,然后,进入特征提取
- 3、在分类阶段使用SVM分类器进行分类
Object detection with RCNN
model design
- Region proposals
- Selective Search
- Feature Extraction
- resize成227x227的RGB image(三通道),无视候选区的尺寸、比例(附录A对此有讨论)
- 此外,在resize之前,还对候选区域进行拼接(扩张)
test-time detection
- 在测试阶段,仍然是上述流程,另外,作者特地强调了下RCNN的高效(就当时而言),主要有以下两点
- CNN参数全局共享
- 特征向量的计算是低维的(计算量小)
- 最后输出的特征向量矩阵是2000x4096,SVM则是4096xN,其中N表示类别数目
training
- 先把CNN扔到大号数据集里面训练(监督预训练,指ILSVRC2012)
- 然后再在VOC中做主要特征微调
- 然后使用SVM对每个区域的每类进行判断(分类)(附录B对此有讨论)
实验数据
-
在VOC2010上的结果
- RCNN BB是用了BB regression(框回归)的版本,可以看到mAP提了3个点
-
而在ILSVR2013上,大体趋势依然不变
-
然后对fine-tuning效果的测试(1-3):(4-6),7是6+用了BB regression的效果,顺手验证了BB regression的效果
-
不同backbone(CNN部分)的效果
附录A:Object proposal transformations
- 提供了两种方法:
- 1、短边+padding然后再resize,这样可以解决ratio不协调问题
- 2、暴力resize,也就是文中采用的方式(图简单?)
附录B:Positive vs. negative examples and softmax
- 首先给出定义
- 对于GT:positive if IOU>0.5 else background
- 对于SVM:
- if IOU>0.5 =>positive
- if IOU<0.3 =>negetive
- else 忽略
- 由于正负样本的不平衡,作者引入many “jittered” examples,使得positive扩大30倍