Faster R-CNN译文

Faster R-CNN是一种目标检测网络,通过Region Proposal Network(RPN)与检测网络共享卷积特征,实现高效运行。RPN是一个全卷积网络,能同时预测边界框和目标得分,端到端训练生成高质量候选区域。通过引入锚点机制,RPN解决了多尺度和宽高比问题,避免了图像金字塔或滤波器金字塔的耗时。Faster R-CNN与Fast R-CNN结合,能在保持高精度的同时提升检测速度,达到5fps的GPU帧率,包括所有步骤。此方法已在PASCAL VOC和MS COCO数据集上取得优异性能,代码已开源。
摘要由CSDN通过智能技术生成

原论文地址

源代码地址

 

摘要:最先进的目标检测网络是依赖候选区域算法来预测目标位置。像SPPnet[1]和Fast R-CNN[2]性能较好的网络减少了检测网络的运行时间,将候选区域的建议作为bottleneck。在这项工作中,引入了RPN,与检测网络共享完整图像的卷积特征,从而不消耗任何资源就可以实现RPN。RPN是一个完全卷积的网络,它同时预测每个位置的目标边界框和目标得分。RPN采用端到端的训练方法,生成高质量的候选区域,在Fast R-CNN模型中用于检测。本文进一步通过采用最近流行的神经网络术语“注意力”机制来共享RPN和Fast R-CNN的卷积特征,从而将将RPN和Fast R-CNN合并成一个网络,RPN告诉整个网络应检测给定图像的哪一部分。对于网络层次很深的VGG-16模型[3],运用本文检测系统在GPU上的帧速率为5fps(包括所有步骤),当每个图像上的proposals(候选框的个数)设为300时,在PASCAL VOC 2007、2012和MS COCO数据集上的目标检测精度达到了最优。在ILSVRC和COCO 2015比赛中,Faster R-CNN和RPN是多项比赛冠军的候选者。代码已开源。

关键词:目标检测,候选区域,卷积神经网络

1 引言

最近目标检测取得的进步要归功于候选区域生成的方法(比如文献[4])以及基于区域的卷积神经网络(R_CNN[5])。尽管初始R_CNN的计算复杂度非常大,但通过和候选区域共享卷积层,大大减小了计算量 [1], [2]。最近改进模型Fast R-CNN [2], 运用了非常深的网络层[3],忽略了候选区域生成步骤,从而可以接近实时检测速率。目前,proposals 是最先进检测系统的测试时间计算性能的bottleneck。(个人理解:导致计算量增大,急需解决的问题)

Region proposal 方法主要是依赖特征和模型推算过程。Selective Search [4], 是最常用的方法之一,主要是将低层网络特征合并成超高像素的特征。当和高效的检测网络相比[2], Selective Search检测速率慢的多,在GPU上运行速度是每秒两张图片。目前EdgeBoxes [6]可以兼顾proposal的质量以及速度,每秒检测的图片可提高到5张。但是呀,region proposal过程消耗的时间还是和检测模块一样多。

注意哦,fast R_CNN是在GPU上运行的,但是region proposal(下文用RP表示)方法是在CPU上运行的,这非常不公平,所以region proposal在GPU上运行可以有效地提高运行速度。从工程方面考虑可能是有效的,但是重新单独运行RP会忽略位于RP结构下面的检测模块,从而不能够共享卷积参数。本文用深层神经卷积网络改善算法,从而有效地解决了问题。当给定检测网络的计算量时,proposal几乎不需要消耗任何计算量。(没懂)

最后,将Region Proposal Networks (RPNs)和最先进的目标检测网络共享卷积层[1], [2]。通过在测试时间阶段分享卷积层,proposal的计算量非常小(因此检测速度就快了,每秒可检测6张图片)。本研究的观察结果是采用基于候选区域的卷积特征图也可以生成候选区域,就像Fast R_CNN一样。基于卷积层特征,本文通过添加几层卷积层搭建RPN,这些卷积层将每个网格中对应的每个位置的区域边界和分类得分进行回归。因此可知RPN实质上是全卷积网络 (FCN) [7] ,对生成检测proposal任务,可以通过端到端的方式进行训练。

RPN是用来有效地预测具有大尺度和宽高比的区域概率。与使用图像金字塔(如图1a所示)或滤波器金字塔(如图1b所示)的热门方法[8]、[9]、[1]、[2]相比,本文引入了“锚”框(由本文首次提出),作为多尺度和宽高比的参考。可以认为本文方案是一个回归的金字塔(如图1c所示),避免生成无用的多个尺度或不同宽高比的图像或过滤器。该模型在使用单尺度图像进行训练和测试时表现良好,因此有利于提高运行速度。

为了将RPN和Fast R-CNN目标检测网络相结合,本文提出了一个全新的训练方法:在保持proposals不变的前提下,交替微调对proposal任务和目标检测。此方法能够加快收敛速度而且生成了一个两个任务共享卷积特征的网络。

本文在PASCAL VOC数据集评估网络性能,RPNs和Fast R-CNN结合的网络比SS和Fast R-CNN结合的网络检测精度要高。同时,本文方法几乎不需要像SS在测试阶段花费的时间,proposal阶段仅需要10毫秒。采用文献[3]中非常深的网络,本文检测方法在GPU上的运行速度也能够达到5FPS(包括所有步骤),因此本文方法在速度和精度方面可以运用在实际目标检测操作中。本文还在MS COCO数据集[12]上进行了实验,并用COCO数据测试在PASCAL VOC取得的性能提高。代码已开源( https://github.com/shaoqingren/faster_rcnn (in MATLAB) and https://github.com/rbgirshick/py-faster-rcnn (in Python).)

本文的初稿见文献[10]。此后,RPN和Faster R-CNN结合的网络框架广泛应用到其他方法,如3D对象检测[13]、part_based的检测[14]、实例分割[15]和图像说明[16]。本文快速且高效的目标检测系统也运用到了商业领域,如Pinterests[17],说明本文网络的应用领域得到了进一步发展。

在ILSVRC和COCO 2015比赛中,Faster R-CNN和RPN是多个项目(ImageNet detection, ImageNet localization, COCO detection, COCO segmentation)中的冠军候选者。 RPNs 可以从数据中完全学会怎样生成候选区域,因此可以从更深层特征中受益(比如文献[18]中采用的101层残差网络)。在这次比赛的前几名网络模型还采用了Faster R-CNN和RPN。结果表明本文方法不仅计算量小而且检测精度高。

2 相关工作

Object Proposals已有大量关于Object Proposal方法的文献。Object proposal的综合研究和性能比较可参考文献[19], [20], [21]。Object proposal主要应用到超像素分组的方法(比如Selective Search [4], CPMC [22], MCG [23])以及基于滑动窗口的方法(比如窗口内的目标检测[24], 边界框[6])。Object proposal其实是独立于检测网络可单独运行的模块(比如Selective Search [4] 目标检测, RCNN [5], and Fast R-CNN [2])

目标检测的深度网络。 R-CNN[5]对CNNs进行端到端的训练模式,区分候选区域中的目标和背景。R-CNN主要是完成分类工作,并不预测目标的边界(但是会通过边界框回归对网络进行优化)。分类网络的精度取决于region proposal 模块的性能(可参考文献[20]中的比较结果).。一些论文提出了用深度网络预测目标边界框(如文献[25], [9], [26], [27])。在OverFeat方法中 [9],通过训练一个全连接层预测单个目标的边界框坐标。然后将全连接层转化为卷积层中用来实现多目标检测任务。Mul

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值