论文连接
https://arxiv.org/abs/1311.2524
相关论文翻译链接
Fast R-CNN:https://blog.csdn.net/itlilyer/article/details/107764472
Faster R-CNN:https://blog.csdn.net/itlilyer/article/details/108049850
Mask R-CNN:https://blog.csdn.net/itlilyer/article/details/108441734
0.摘要
目标检测的性能最近几年性能一直停滞不前。之前性能最好的方法是一个将低级别(low-level)的图像特征与高级别(hight-level)的上下文信息结合在一起的一个复杂系统。作者提出的方式简单、可扩展,mAP提高了30%,达到了53.3%。
该方法结合了两个关键的思想:
1. 在候选区域上执行大容量的神经网络(CNN),以便对对象进行定位和分割;
2. 当标记的训练数据比较少的时候,先对辅助任务进行有监督的预训练,然后对特定区域进行微调(fine-tune),可以使性能得到明显的提升。
我们将候选区域与CNN结合在一起,称该方法为R-CNN(Regions with CNN features)。
还与一种基于CNN的滑动窗口的检测器OverFeat进行了比较,性能表现远远超过OverFeat。
1. 介绍
特征很重要。过去十年视觉识别任务基本上都是基于SIFT和HOG,但是在2010到2012期间已经发展到了瓶颈,仅通过建立集成系统和稍微修改已有的成功方式获得了有限的进步。
SIFT和HOG是块方向的直方图,可以与灵长类的视觉神经的第一个皮质区域粗略的联系起来。但是都知道视觉识别发生在后面的几步流程中,这也说明视觉是一个分级的多个阶段的计算来给视觉的发生提供信息更丰富的特征。(个人理解:SIFT和HOG的方式只是实现视觉的第一步,找到了目标物体差不多对应到proposal,但是缺乏后面的计算过程,没有为识别提供更加丰富的信息。)
新感知机是受生物学启发的,具有层次性和平移不变性的模式识别模型,是对这中多阶段处理方式的早期尝试。但是缺乏监督训练算法。在Rumelhart的基础上,LeCen等人发现基于反向传播的梯度下降算法对于训练卷积神经网络(CNNs)非常有效,是在新感知机(neocognitron)基础上发展起来的。
CNNs在90年代得到广泛的应用,但是随着支持向量机的兴起而没落了。在2012年Krizhevsky等人通过在ILSVRC上更高的图像分类精度,重新点燃了对CNNs的兴趣。他们通过对LeCun的CNN网络做了一些修改(例如:通过max(0, x)矫正非线性和dropout正则化),并在120万张标记图片上进行网络的训练。
2012年的ILSVRC研讨会上对这个结果的意义进行了激烈的争论,核心的问题是:图片分类的结果多大的程度上能够体现出目标检测的结果。
我们通过将图像分类和目标检测建立联系来回答这个问题。本文首次表明,CNN网络比基于简单HOG特征的系统有更高的目标检测的性能。为了达成目标,我们聚焦在两个问题上:用深度网络来定位目标和使用小批量带标记的检测数据来训练模型。
与图像分类不同,目标检测需要对图像中的目标进行定位(目标可能有多个)。一种方法是将框的定位看作是一个回归问题。另一种可选方法是使用滑动窗口来探测物体。这种方式CNNs至少已经使用了20年,但是仅仅用在有限的类别上,例如:人脸和行人。为了有更高的空间分辨率,这些CNNs都采用了两层卷积层和两个池化层。我们也考虑过使用滑动窗口的方法。但是我们的网络有5个卷基层,有非常大的感受野(195x195像素)和步长(32x32),这对使用滑动窗口来精确定位目标充满挑战。
相反,我们使用“区域识别”的模式来解决CNN的目标定位问题,这个已经在目标识别和语义分割中成功应用。每个图片生成2000个左右与类别无关的候选区域(region proposal),然后使用CNN为每个候选区域提取固定长度的特征向量,最后使用特定种类的线性分类器SVMs对每个候选区域进行分类。我们使用仿射变换图片的方式使每个候选区域满足CNN对输入大小的要求。因为我们结合了候选区域(region proposal)和CNNs,所以称该方法为R-CNN:Region with CNN features。
图中是该目标检测系统的概况:
1.输入图片
2.提取2000左右的候选框
3.使用卷积神经网络CNN为每个候选区域计算特征
4.使用SVM对每个区域进行分类
我们与目前为止性能最好的OverFeat(使用滑动窗口+CNN)进行了比较,我们的性能明显的超过了它,mAP:31.4% vs 24.3% 。
**目标检测面对的第二个挑战是:标记数据缺乏,当前可以获得的数据不足以训练一个大型的CNN网络。通常的方法是先进行无监督的预训练,然后进行有监督的对网络进行微调。本文的第二个重要贡献是:先在一个辅助的大数据集上进行有监督的预训练,然后在小数据集上面针对特定的问题进行微调,这对缺乏数据来训练大容量的CNN网络是非常有效的。**经过试验发现精度提升了8%。经过调优,我们的系统在VOC 2010上达到了54%的mAP,于此对应的基于HOG 进行高度优化的deformable part model(DPM)的精度为33%。CNN可以作为黑匣子的特征提取器使用,不用作任何的修改。
DPM是一个非常成功的目标检测算法,已成为众多分类器、分割、人体姿态和行为分类的重要部分。DPM可以看做是HOG(Histograms of Oriented Gradients)的扩展,大体思路与HOG一致。先计算梯度方向直方图,然后用SVM(Surpport Vector Machine )训练得到物体的梯度模型(Model)。有了这样的模板就可以直接用来分类了,简单理解就是模型和目标匹配。DPM只是在模型上做了很多改进工作。
我们的系统同时也很高效,计算的类型只是一些大小合理的矩阵向量计算和贪婪非极大值抑制(NMS)。这种计算特性源自所有类别的特征共享,同时还比之前的区域特征低了两个数量级。
分析我们失败的模式对于网络精度的提升也是非常关键的。通过使用检测分析工具我们发现:一个简单的边框回归可以有效降低定位错误的问题。该问题是我们遇到的主要问题。
由于RCNN是针对候选区域进行操作,因此可以很容易的扩展到语义分割的任务上。
最低0.47元/天 解锁文章
1869

被折叠的 条评论
为什么被折叠?



