Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik
在过去几年中,根据标准的PASCAL VOC数据集进行的物体检测性能已经趋于稳定。最佳性能的方法是复杂的集成系统,通常将多个低级图像特征与高级上下文结合起来。在本文中提出了一种简单且可扩展的检测算法,相对于VOC 2012先前的最佳结果,平均精度(mAP)提高了30%以上,达到了53.3%的mAP。
文章的方法结合了两个关键见解:
(1)可以将高容量的卷积神经网络(CNN)应用于自下而上的区域提议,以定位和分割物体;
(2)在标记的训练数据稀缺时,针对辅助任务进行监督预训练,然后进行领域特定的微调,可以显著提高性能。
由于本文将区域提议与CNN结合在一起,因此将此方法称为R-CNN:具有CNN特征的区域。本文还将R-CNN与OverFeat进行了比较,后者是一种基于类似CNN架构的滑动窗口检测器。经过发现,在200类ILSVRC2013检测数据集上,R-CNN的性能远远优于OverFeat。
原文链接:
Rich feature hierarchies for accurate object detection and semantic segmentation