(R-CNN)Rich feature hierarchies for accurate object detection and semantic segmentation论文阅读笔记2014

本文详细解读了2014年的R-CNN论文,介绍了如何利用深度卷积神经网络(CNN)提升目标检测的准确性。R-CNN通过将区域建议与CNN相结合,实现了在PASCAL VOC 2012数据集上的性能显著提升,达到53.3%的mAP。在预训练和微调策略中,R-CNN展示了CNN在数据有限时的有效性。此外,R-CNN也成功应用于语义分割任务,实现了当时最佳的分割准确率47.9%。通过区域建议、CNN特征提取和SVM分类,R-CNN解决了定位和识别问题,且在测试阶段表现高效。
摘要由CSDN通过智能技术生成

(R-CNN)Rich feature hierarchies for accurate object detection and semantic segmentation论文阅读笔记2014

Abstract

使用PASCAL VOC数据集评估的目标检测任务的变现,近几年有所停滞,目前最好的方法都是复杂的聚集系统:将多个低级的图像特征与高级的context进行组合。本文中,我们提出一个简单的、可扩展的检测算法,相对于VOC2012最好表现提升了超过30%的mAP,达到了53.3%。我们的方法组合了两个关键的想法:

  • 为了定位和分割,我们可以将高能力(高容量,high-capacity)的CNN用在自底向上的区域建议中(region proposals)。
  • 当标签的训练数据稀缺时,可以对辅助任务进行有监督的预训练,然后进行针对特定领域的微调,可显着提升性能。

因为我们将区域建议与CNN进行组合,我们把我们的方法叫做RCNN:Regions with CNN features。我们同样做了实验来看网络学到什么,结果是图像特征的rich hierarchy。

1.Introduction

Features matter。上一个十年视觉识别任务的发展是建立在SIFT和HOG的应用上。但是近几年2012-2014,我们再看,已经没有多少进步了,都是通过集合不同的系统,使用多个方法汇总来提升的。

SIFT和HOG都是按块分的方向直方图(blockwise),可以大致与V1中的复杂细胞(在灵长类动物视路径中的第一个皮质区域)相关联。但是我们知道,识别发生在几个下游阶段,这意味着获得一个更有效的特征的计算过程可能需要分层的、多阶段的处理。

一个叫neocognitron的模型,是第一个这种尝试,然而它缺乏监督学习的算法。LeCun使用SGD,通过反向传播,使用神经网络,优化了模型。

CNN在1990s有着广泛应用,但是后来不再流行,尤其是在CV领域,因为支持向量机的出现。2012年,AlexNet又一次使得CNN流行起来,它在ILSVRC取得了很好的效果。

在2012年ILSVRC研讨会上对ImageNet结果的重要性进行了激烈的辩论,核心问题可以归结如下:ImageNet上CNN分类结果在可以在多大程度上概括为PASCAL VOC挑战中的物体检测结果?

我们通过建立分类与目标检测任务之间的桥梁来回答这个问题。本文是首个提出CNN可以极大提升PASCAL VOC上目标检测表现的论文。达成这一结果需要解决两个问题:使用深度网络定位目标、只是用较少数量的标记数据训练一个高能力的网络。

与图像分类不同,**检测需要在图像中对目标进行定位。一种方法是把定位视为回归任务。**然而Szegedy和我们的文章都发现这种策略实际上表现可能不够好。另一种方法就是建立一个滑窗检测器,CNN广泛应用在这种方法中,用在人脸或者行人检测这种特殊的任务中,但是通常它们只有两层卷积层,我们也考虑过这种方法。我们使用了五层卷积层,使用了很大的感受野(195 * 195像素)以及步长(32 * 32),这使得滑窗进行精确定位成为了一项挑战。

因此,我们通过“recognition using regions”来解决CNN的定位问题。==在测试阶段,我们的方法生成大约2000个类无关的区域建议,使用CNN对每个区域提取一个固定长度的特征,然后使用category-specific的线性SVM对每个区域进行分类。==我们使用简单的技术**(仿射图像变形)**来对每个区域建议形成固定尺寸的CNN输入,而不管区域的形状。图1展示了我们方法的过程,因为我们的方法组合了区域建议和CNN,所以称为R-CNN。

检测领域的第二个挑战是,标记的数据比较缺乏,目前的数据量不足以训练大型CNN。传统方法是使用非监督的预训练,然后使用监督的微调。==本文的第二个贡献就是展示了,在大的辅助数据集(ILSVRC)上进行有监督的预训练,然后再在小的数据集(PASCAL)使用领域知识进行微调,这是一种当数据不足时有效的对高能力CNN的训练方法。==在我们的实验中,微调对mAP提升了八个百分点,在微调后,我们的系统在VOC2010上取得了54%的mAP,相比较来说基于HOG的DPM(deformable part model)仅仅是33%。

我们的系统也十分有效率。**唯一的class-specific计算是一个相当小的矩阵向量乘积以及贪婪非极大值抑制。**这个计算跟随特征,可以在所有类别中共享,并且特征的维度也比以前的方法低两个数量级。

HOG类的特征的一个优点在于简单:很容易理解它们携带的信息。我们能从CNN学到的特征得到一些启示吗?也许密集连接的层,有超过54million参数的它们是关键?然而并不是。我们“叶状化”CNN,然后惊讶的发现,有大概94%的参数,当它被移除后,检测准确性只下降一点点。然而,检测网络中的units,我们可以看到卷积层学到了许多rich features。(见图3)

了解我

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值