目标检测经典论文——Faster R-CNN论文翻译（纯中文版）：Faster R-CNN：通过Region Proposal网络实现实时目标检测

最新推荐文章于 2024-07-27 19:20:14 发布

bigcindy

最新推荐文章于 2024-07-27 19:20:14 发布

阅读量7.9k

点赞数 11

分类专栏：深度学习经典论文翻译文章标签： Faster R-CNN 目标检测 region proposal

本文链接：https://blog.csdn.net/Jwenxue/article/details/107748365

版权

目标检测经典论文翻译汇总：[翻译汇总]

翻译pdf文件下载：[下载地址]

此版为纯中文版，中英文对照版请稳步：[Faster R-CNN中英文对照版]

Faster R-CNN：通过Region Proposal网络实现实时目标检测

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun

摘要

最先进的目标检测网络依靠region proposal算法来推理检测目标的位置。SPPnet[1]和Fast R-CNN[2]等类似的研究已经减少了这些检测网络的运行时间，使得region proposal计算成为一个瓶颈。在这项工作中，我们引入了一个region proposal网络（RPN），该网络与检测网络共享整个图像的卷积特征，从而使近乎零成本的region proposal成为可能。RPN是一个全卷积网络，可以同时在每个位置预测目标边界和目标分数。RPN经过端到端的训练，可以生成高质量的region proposal，并使用Fast R-CNN完成检测。我们将RPN和Fast R-CNN通过共享卷积特征进一步合并为一个单一的网络——使用最近流行的具有“注意力”机制的神经网络术语，RPN组件告诉统一网络在哪里寻找。对于非常深的VGG-16模型[3]，我们的检测系统在GPU上的帧率为5fps（包括所有步骤），同时在PASCAL VOC 2007、2012和MS COCO数据集上达到了目前最好的目标检测精度，每个图像只有300个proposals。在ILSVRC和COCO 2015竞赛中，Faster R-CNN和RPN是多个比赛中获得第一名的基础。代码已公开。

关键字

目标检测，Region Proposal，卷积神经网络

1. 引言

目标检测的最新进展是由region proposal方法（例如[4]）和基于区域的卷积神经网络（R-CNN）[5]的成功驱动的。尽管在[5]中最初开发的基于区域的CNN计算代价很大，但是由于在各种proposals中共享卷积，所以其成本已经大大降低了[1]，[2]。忽略花费在region proposals上的时间，最新版本Fast R-CNN[2]利用非常深的网络[3]实现了接近实时的速率。现在，proposals是最新的检测系统中测试时间的计算瓶颈。

Region proposal方法通常依赖廉价的特征和简练的推断方案。Selective Search [4]是最流行的方法之一，它贪婪地合并基于设计的低级特征的超级像素。然而，与有效的检测网络[2]相比，Selective Search速度慢了一个数量级，在CPU实现中每张图像的时间为2秒。EdgeBoxes[6]目前提出了在proposal质量和速度之间的最佳权衡，每张图像0.2秒。尽管如此，region proposal步骤仍然像检测网络那样消耗同样多的运行时间。

有人可能会注意到，基于区域的快速CNN利用GPU，而在研究中使用的region proposal方法在CPU上实现，使得运行时间比较不公平。加速region proposal计算的一个显而易见的方法是将其在GPU上重新实现。这可能是一个有效的工程解决方案，但重新实现忽略了下游检测网络，因此错过了共享计算的重要机会。

在本文中，我们展示了算法的变化——用深度卷积神经网络计算region proposal——获得了一个优雅和有效的解决方案，其中在给定检测网络计算的情况下region proposal计算接近零成本。为此，我们引入了新的region proposal网络（RPN），它们共享最先进目标检测网络的卷积层[1]，[2]。通过在测试时共享卷积，计算region proposal的边际成本很小（例如，每张图像仅需10ms）。

我们的观察到基于区域的检测器所使用的卷积特征映射，如Fast R-CNN，也可以用于生成region proposal。在这些卷积特征之上，我们通过添加一些额外的卷积层来构建RPN，这些卷积层同时在规则网格上的每个位置上回归区域边界和目标分数。因此RPN是一种全卷积网络（FCN）[7]，可以针对生成检测区域proposals的任务进行端到端的训练。

RPN旨在有效预测具有广泛尺度和长宽比的region proposal。与使用图像金字塔（图1 a）或滤波器金字塔（图1 b）的流行方法[8]，[9]，[1]，[2]相比，我们引入新的“anchor”框作为多种尺度和长宽比的参考。我们的方案可以被认为是回归参考金字塔（图1 c），它避免了遍历多种比例或长宽比的图像或滤波器。这个模型在使用单尺度图像进行训练和测试时运行良好，从而有利于提升运行速度。

图1：解决多尺度和尺寸的不同方案。（a）构建图像和特征映射金字塔，分类器以各种尺度运行。（b）在特征映射上运行具有多个比例/大小的滤波器的金字塔。（c）我们在回归函数中使用参考边界框金字塔。

为了将RPN与Fast R-CNN [2]目标检测网络相结合，我们提出了一种训练方案，在fine-tune region proposal任务和fine-tune目标检测之间进行交替，同时保持region proposal的固定。该方案快速收敛，并产生两个任务之间共享的具有卷积特征的统一网络。

我们在PASCAL VOC检测基准数据集上[11]综合评估了我们的方法，其中具有Fast R-CNN的RPN产生的检测精度优于使用Selective Search的Fast R-CNN的强基准模型。同时，我们的方法在测试时几乎免除了Selective Search的所有计算负担——region proposal的有效运行时间仅为10毫秒。使用[3]的昂贵的非常深的模型，我们的检测方法在GPU上仍然具有5fps的帧率（包括所有步骤），因此在速度和准确性方面是实用的目标检测系统。我们还报告了在MS COCO数据集上[12]的结果，并使用COCO数据研究了在PASCAL VOC上的改进。代码可公开获得https://github.com/shaoqingren/faster_rcnn（MATLAB实现）和https://github.com/rbgirshick/py-faster-rcnn（Python实现）。

这篇稿件的初始版本是以前发表的[10]。从那时起，RPN和Faster R-CNN的框架已经被采用并推广到其他方法，如3D目标检测[13]，基于部件的检测[14]，实例分割[15]和图像标题生成[16]。我们快速和有效的目标检测系统也已经在Pinterest[17]的商业系统中进行了部署，并报告了用户参与度的提高。

在ILSVRC和COCO 2015竞赛中，Faster R-CNN和RPN是ImageNet检测任务、ImageNet定位任务、COCO检测任务和COCO分割任务中几个第一名获胜模型[18]的基础。RPN完全从数据中学习propose regions，因此可以从更深入和更具表达性的特征（例如[18]中采用的101层残差网络）中轻松获益。Faster R-CNN和RPN也被这些比赛中的其他几个主要参赛者所使用。这些结果表明，我们的方法不仅是一个实用合算的解决方案，而且是一个提高目标检测精度的有效方法。

2. 相关研究工作

目标Proposals。目标Proposals方法方面有大量的文献。目标Proposals方法的综合调查和比较可以在[19]，[20]，[21]中找到。广泛使用的目标提议方法包括基于超像素分组（例如，Selective Search [4]，CPMC[22]，MCG[23]）和那些基于滑动窗口的方法（例如窗口中的目标[24]，EdgeBoxes[6]）。目标提议方法被采用为独立于检测器（例如，Selective Search [4]目标检测器，R-CNN[5]和Fast R-CNN[2]）的外部模块。

用于目标检测的深度网络。R-CNN方法[5]端到端地对CNN进行训练，将proposal regions分类为目标类别或背景。R-CNN主要作为分类器，并不能预测目标边界（除了通过边界框回归进行修正）。其准确度取决于region proposal模块的性能（参见[20]中的比较）。一些论文提出了使用深度网络来预测目标边界框的方法[25]，[9]，[26]，[27]。在OverFeat方法[9]中，训练一个全连接层来预测假定单个目标定位任务的边界框坐标。然后将全连接层变成卷积层，用于检测多个类别的目标。MultiBox方法[26]，[27]从网络中生成region proposal，网络最后的全连接层同时预测多个类别不相关的边界框，并推广到OverFeat的“单边界框”方式。这些类别不可知的边界框框被用作R-CNN的候选区域[5]。与我们的全卷积方案相比，MultiBox提议网络适用于单张裁剪图像或多张大型裁剪图像（例如224×224）。MultiBox在提议区域和检测网络之间不共享特征。稍后在介绍我们的方法时会讨论OverFeat和MultiBox。与我们的工作同时进行的DeepMask方法[28]是为学习分割proposals而开发的。

卷积[9]，[1]，[29]，[7]，[2]的共享计算已经越来越受到人们的关注，因为它可以有效而准确地进行视觉识别。OverFeat论文[9]计算图像金字塔的卷积特征用于分类、定位和检测。共享卷积特征映射的自适应大小池化（SPP）[1]被开发用于有效的基于区域的目标检测[1]，[30]和语义分割[29]。Fast R-CNN[2]能够对共享卷积特征进行端到端的检测器训练，并显示出令人信服的准确性和速度。

3. FASTER R-CNN

我们的目标检测系统，称为Faster R-CNN，由两个模块组成。第一个模块是产生proposes regions的深度全卷积网络，第二个模块是使用proposes regions的Fast R-CNN检测器[2]。整个系统是一个单个的、统一的目标检测网络（图2）。使用最近流行的“注意力”[31]机制的神经网络术语，RPN模块告诉Fast R-CNN模块在哪里寻找。在第3.1节中，我们介绍了region proposal网络的设计和属性。在第3.2节中，我们开发了用于训练具有共享特征的两个模块算法。

图2：Faster R-CNN是一个单一、统一的目标检测网络。RPN模块作为这个统一网络的“注意力”。

3.1 region proposal网络

region proposal网络（RPN）以任意大小的图像作为输入，输出一组矩形的目标proposals，每个proposals都有一个目标得分。我们用全卷积网络[7]对这个过程进行建模，我们将在本节进行描述。因为我们的最终目标是与Fast R-CNN目标检测网络[2]共享计算，所以我们假设两个网络共享一组共同的卷积层。在我们的实验中，我们研究了具有5个共享卷积层的Zeiler和Fergus模型[32]（ZF）和具有13个共享卷积层的Simonyan和Zisserman模型[3]（VGG-16）。

为了生成region proposal，我们在最后的共享卷积层输出的卷积特征映射上滑动一个小网络。这个小网络将输入卷积特征映射的n×n空间窗口作为输入。每个滑动窗口映射到一个低维特征（ZF为256维，VGG为512维，后面是ReLU[33]）。这个特征被输入到两个子全连接层——一个边界框回归层（reg）和一个边界框分类层（cls）。在本文中，我们使用n=3，注意输入图像上的有效感受野是大的（ZF和VGG分别为171和228个像素）。图3（左）所示为这个小型网络。请注意，因为小网络以滑动窗口方式运行，所以所有空间位置共享全连接层。这种架构通过一个n×n卷积层、后面接两个子1×1卷积层（分别用于reg和cls）自然地实现了。