Abstract
在过去的几年里,在典型的PASCAL VOC数据集上测量的目标检测性能已经趋于平稳。表现最好的方法是复杂的组合系统,通常将多个低层次的图像特征与高层次的背景相结合。在本文中,我们提出了一种简单的、可扩展的检测算法,相对于VOC 2012的最佳结果,该算法的平均精度(mAP)提高了30%以上–达到了53.3%的mAP。我们的方法结合了两个关键的见解:(1)我们可以将大容量的卷积神经网络(CNN)应用于自下而上的区域建议(Region Proposal),以便对物体进行定位和分割;(2)当标记的训练数据不足时,对一个辅助任务进行监督性的预训练,然后再进行特定领域的微调,可以产生显著的性能提升。由于我们将区域建议与CNN结合起来,我们将我们的方法称为R-CNN。我们还提出了一些实验,这些实验提供了对网络学习内容的洞察力,揭示了丰富的图像特征层次结构。
Method
本文为大名鼎鼎的R-CNN,其中的R表示Region Proposal,。按照现在的分类方法,本文算是一种两阶段的Anchor Based方法,流程如下所示:
- Step1: Region Proposal,即候选区域,可以认为就是一个框,框内包含我们感兴趣类别的物品。文中使用了Selective Search算法,每个图像能得到2k~3k个候选框。
- Step2: 由于框内可能包含我们感兴趣的对象,那么现在实际上就成了一个分类问题,判断这个框的类别即可。因此,将框内图像resize成CNN能够接受的输入尺寸(如224x224),并送入CNN进行特征提取。
- Step3: 将提取得到的特征送入SVM进行分类,判断其类别。注意,由于SVM只是个二分类器,所以有多少种可能的类就要把单个特征送入多少个不同的SVM。
Pros
本文亮点如下:
- 利用深度学习模型来提取特征,性能相比传统的手工特征实现了飞跃。
- 引入了finetune思想,通过在图像分类任务上的ILSVRC数据集上预训练得到丰富表征,再在相对较小的目标检测数据集VOC上finetune。
Cons
本文不足如下:
- 慢。时间主要花在Selective Search生成候选框,以及SVM分类上,并且特征是要存在磁盘上的(占地方)。因此后续才陆续有了Fast R-CNN与Faster R-CNN。