作者Rgb
在这之前大部分物体检测算法都是基于传统的图像处理方法,这是第一篇将深度学习用到物体检测上的文章,直接影响是2012年ALEXNET在比赛中的重大成功。
简单来说,RCNN使用以下四步实现目标检测:
a. 在图像中用slective search 方法 确定约1000-2000个候选框
具体为什么使用这个方法,原文在第三页中有说While R-CNN is agnostic to the particular region proposal method, we use selective search to enable a controlled comparison with prior detection work。意思是R-CNN和区域选择方法并没有联系,对任何选择方法都是兼容的,这里选用SS目的是方便于同之前别人的工作进行对比。slective search 方法是在图像分割的基础上运用贪心算法思想,得到物体可能在的不同区域。
b. 对于每个候选框内图像块,使用深度网络提取特征,得到一个固定长度的特征向量
We extract a 4096-dimensional feature vector from each region proposal using the Caffe implementation of the CNN described by Krizhevsky etal.这里很清楚的说了,作者就是用了AlexNet的网络结构最好提取4096维的一维向量,作为特征向量。
输入去均值化的227×227 RBG通道图片,然后经过5个卷积2个全连接。因为经过SS得到的候选框大小不一,但是CNN要求的输入必须是227×227的。这里就涉及到几种归一化方法。原论文在第11页给出了几种填充和缩放方法。这里方法的选择会影响3-5mAP。作者这里使用了在得到原始的propos