2016-11-22
Rich featureHierarchies for accurate object detection and semantic segmentation
建议读此论文之前,先读 基于R_CNN的物体检测
Abstract
PASCAL VOC(patternanalysis,statistical modelling and computationallearning visual object classes 模式分析、统计建模、计算学习、视觉物体分类 )数据集(用来做图片识别和物体检测)
在物体检测领域中,之前很多的任务都是基于SIFT和HOG的。比较好的方法也是基于复杂的集成系统的,而作者提出一个简单而且可扩展的检测算法,这种算法提高了平均物体检测度(mAP:mean average precision ),
两点贡献:
(1)将CNN用在从底至上的region propasals上,从而进行物体定位和分割(one can apply high-capacity convolutional neural net-works (CNNs) tobottom-up region proposals in order tolocalize and segment objects)
(2)通过使用有监督预训练加上相关的finetune,解决物体识别标签数据有限的问题,提高性能
该方法把region proposals与CNNs结合,称之为R-CNN方法,Regions with CNN features。
1、Introduction
特征主导。之前在视觉识别任务上的进步都是基于SIFT和HOG特征的。在2010-2012年没有成效。
Fukushima的神经认知机一个模式识别中受生物启发的分层结构和迁移不变模型,是早期在那样一个阶段的尝试。但是,这个神经认知机缺乏监督训练算法。建立在Rumelhart等人和 LeCun等人基础上的通过反向传播的随机梯度下降法是一种有效的训练卷积神经网络(一类神经认知机扩展的模型)的方法。
CNNs在90年代的时候得到大量的使用,但是随着支持向量机的出现而日渐衰落。在2012年Krizhevsky等人通过在 ImageNet上大规模的视觉识别挑战赛(the Large Scale Visual Recognition Challenge——ILSVRC)上达到的更高的分类准确率重新点燃了对CNNs的热情。他们的成功在于在120万张标签图片上训练巨大的CNN网络,并且在LeCun’s CNN 网络上采取了一些改进(例如:max(x; 0) 矫正非线性和“dropout”正则化)。