R-CNN 论文笔记
关于最新最全的目标检测论文,可以查看awesome-object-detection
《Rich feature hierarchies for accurate object detection and semantic segmentation》
CVPR 2014
supp: http://people.eecs.berkeley.edu/~rbg/papers/r-cnn-cvpr-supp.pdf
slides: http://www.image-net.org/challenges/LSVRC/2013/slides/r-cnn-ilsvrc2013-workshop.pdf
slides: http://www.cs.berkeley.edu/~rbg/slides/rcnn-cvpr14-slides.pdf
github(caffe): https://github.com/rbgirshick/rcnn
caffe-pr(“Make R-CNN the Caffe detection example”): https://github.com/BVLC/caffe/pull/482
推荐阅读
R-CNN:Regions + CNN
创新点
使用CNN(ConvNet)对 region proposals 计算 feature vectors。从经验驱动特征(SIFT、HOG)到数据驱动特征(CNN feature map),提高特征对样本的表示能力。
采用大样本下(ILSVRC)有监督预训练和小样本(PASCAL)微调(fine-tuning)的方法解决小样本难以训练甚至过拟合等问题。
注:ILSVRC其实就是众所周知的ImageNet的挑战赛,数据量极大;PASCAL数据集(包含目标检测和图像分割等),相对较小。
结果
在VOC2012中,将mAP(mean average percision)提高了30%以上
先看一下 PASCAL VOC历年(2007~2012)的检测冠军,可见DPM的统治力有多强大!(刚荣获CVPR 2018 Longuet-Higgins Prize)
但直到2013年 R-CNN的横空出世,一切都被打破了!
之后目标检测领域就进入 R-CNN系列的疯狂统治中……
R-CNN流程
图像来源: r-cnn-ilsvrc2013-workshop.pdf
题外话:R-CNN作为R-CNN系列的第一代算法,其实没有过多的使用“深度学习”思想,而是将“深度学习”和传统的“计算机视觉”的知识相结合。
比如pipeline中的第二步和第四步其实就属于传统的“计算机视觉”技术。使用selective search提取region proposals,使用SVM实现分类。
而R-CNN系列的第三代算法:Faster R-CNN是使用RPN来提取 region proposals,而使用softmax实现分类。Faster R-CNN才是纯正的深度学习算法。
图像来源: r-cnn-ilsvrc