目标检测经典论文——R-FCN论文翻译（纯中文版）：基于Region的全卷积神经网络进行目标检测（R-FCN: Object Detection via Region-based Fully Con）

最新推荐文章于 2023-11-17 11:04:06 发布

bigcindy

最新推荐文章于 2023-11-17 11:04:06 发布

阅读量1.1k

点赞数 1

分类专栏：深度学习经典论文翻译文章标签： R-FCN 目标检测位置敏感分数图 Faster R-CNN

本文链接：https://blog.csdn.net/jwenxue/article/details/107846360

版权

深度学习经典论文翻译专栏收录该内容

30 篇文章 91 订阅

订阅专栏

目标检测经典论文翻译汇总：[翻译汇总]

翻译pdf文件下载：[下载地址]

此版为纯中文版，中英文对照版请稳步：[R-FCN中英文对照版]

R-FCN: Object Detection via Region-based Fully Convolutional Networks

基于Region的全卷积神经网络进行目标检测

Jifeng Dai

Microsoft Research

Yi Li*

Tsinghua University

Kaiming He（何恺明）

Microsoft Research

Jian Sun（孙剑）

Microsoft Research

摘要

我们提出了基于Region的全卷积网络，以实现准确和高效的目标检测。与先前的基于区域的检测器（如Fast/Faster R-CNN [6，18]）相比，这些检测器每次需要对每个region运行非常耗时子网络，我们的基于区域的检测器是全卷积的，几乎所有计算都在整张图像上共享。为了实现这一目标，我们提出了位置敏感分数图（position-sensitive score maps），以解决图像分类中的平移不变性与目标检测中的平移可变性之间的矛盾。因此，我们的方法自然地采用全卷积图像分类器的主干网络，如最新的残差网络（ResNets）[9]，用于目标检测。我们使用101层ResNet在PASCAL VOC数据集上获得了具有竞争力的结果（例如，2007数据集上83.6%的mAP）。同时，我们的测试结果达到每张图像170ms的测试速度，比Faster R-CNN相应的配置速度快2.5-20倍。代码公开发布在：https://github.com/daijifeng001/r-fcn。（译者注：上面github的代码为Matlab版，Python版：https://github.com/YuwenXiong/py-R-FCN）

1. 引言

流行的目标检测深度网络家族[8，6，18]通过感兴趣区域（RoI）池化层[6]可以将网络划分成两个子网络：（1）独立于RoI的共享“全卷积”子网络，（ii）不共享计算的RoI子网络。这种分解[8]以往是由开创性的分类架构产生的，例如AlexNet[10]和VGG Nets[23]等，在设计上它由两个子网络组成——一个卷积子网络以空间池化层结束，后面是几个全连接（fc）层。因此，图像分类网络中的（最后一个）空间池化层在目标检测网络中[8，6，18]自然地变成了RoI池化层。

但是最近最先进的图像分类网络，如残差网络（ResNets）[9]和GoogLeNets[24，26]都是被设计成全卷积的。通过类比，在目标检测架构中使用所有卷积层来构建共享的卷积子网络似乎是很自然的，使得RoI的子网络没有隐藏层。然而，对这项工作通过经验性的研究发现，这个naive的解决方案有相当差的检测精度，无法获得更好的分类精度。为了解决这个问题，在ResNet论文[9]中将Faster R-CNN检测器[18]的RoI池化层不自然地插入到两组卷积层之间——这便构建了更深的RoI子网络，其改善了精度，但由于非共享的逐RoI计算使得运行速度更低。

我们认为，前面提到的非自然设计源于图像分类任务希望增加变换不变性与目标检测希望保持平移可变性之间的矛盾。一方面，图像水平的分类任务更希望具有平移不变性——图像内的目标位置的移动对分类结果应该是无差别的。因此，深度（全）卷积架构尽可能保持平移不变性，这一点可以从ImageNet分类[9，24，26]的主要结果中得到证实。另一方面，目标检测任务的定位表示需要一定程度上满足平移可变性。例如，在候选框内目标变换应该产生有意义的响应，用于描述候选框与目标的重叠程度。我们假设图像分类网络中较深的卷积层对平移不太敏感。为了解决这个困境，ResNet论文的检测流程[9]将RoI池化层插入到卷积中——特定区域的操作打破了平移不变性，当在不同区域进行评估时，RoI后卷积层不再是平移不变的。然而，这个设计牺牲了训练和测试效率，因为它引入了大量的区域层（表1）。

表1：使用ResNet-101的基于区域的检测器方法[9]。

在本文中，我们开发了一个称为基于区域的全卷积网络（R-FCN）框架来进行目标检测。我们的网络由共享的全卷积架构组成，就像FCN[15]一样。为了将平移可变性并入FCN，我们通过使用一组专门的卷积层作为FCN输出来构建一组位置敏感的分数图。这些分数图中的每一个都编码相对应的空间位置信息（例如，“在目标的左边”）。在这个FCN的顶部，我们添加了一个位置敏感的RoI池化层，它从这些分数图中获取信息，并且后面没有权重（卷积层或全连接层）层。整个架构是端到端的学习。所有可学习的层都是卷积层，并在整个图像上共享计算，同时也对目标检测所需的空间信息进行了编码。图1阐述了其主要思想，表1比较了基于区域的不同检测器方法。

图1：R-FCN用于目标检测的主要思想。在这个图中，由全卷积网络生成了k×k=3×3的位置敏感分数图。对于RoI中的每个k×k bins，池化是在每个k2个映射图（用不同的颜色标记）上单独进行的。

使用101层的残差网络（ResNet-101）[9]作为backbone（译者注：也就是网络的主干部分，用于提取并输出输入图像的特征图），我们的R-FCN在PASCAL VOC 2007数据集和2012数据集上分别获得了83.6%的mAP和82.0%的mAP。同时，使用ResNet-101时我们的模型在测试时运行每张图像只需170ms，比[9]中相应的Faster R-CNN + ResNet-101模型快了2.5倍到20倍。这些实验表明，我们的方法设法解决平移不变性/可变性之间的矛盾，并且全卷积图像水平的分类器，例如ResNet，可以有效地转换为全卷积目标检测器。代码公开发布在：https://github.com/daijifeng001/r-fcn（译者注：此代码为Matlab版，Python版：https://github.com/YuwenXiong/py-R-FCN）。

2. 我们的方法

概述。根据R-CNN[7]，我们也采用了流行的两阶段目标检测策略[7，8，6，18，1，22]，其中包括：（i）region proposal和（ii）区域分类。尽管不依赖region proposal的方法确实存在（例如[17，14]），但是基于区域的系统在几个基准（数据集及评估标准）[5，13，20]中仍然具有领先的准确性。我们使用region proposal网络（RPN）提取候选区域[18]，RPN本身就是一个全卷积架构。根据[18]我们在RPN和R-FCN之间的共享特征。图2所示为系统的概述。

图2：R-FCN的总体架构。region proposal网络（RPN）[18]产生候选RoI，然后将其应用于评分图上。所有可学习的权重层都是卷积层，并在整个图像上进行卷积计算；每个RoI的计算成本可以忽略不计。

给定proposal regions（RoI），R-FCN架构被设计成将RoI分类为目标类别和背景。在R-FCN中，所有可学习的权重层都是卷积层，并在整个图像上进行卷积运算。最后一个卷积层为每个类别产生一堆大小为k2的位置敏感分数图（position-sensitive score maps），因此该层是一个具有C个目标类别的k2(C+1)通道的输出层（+1为背景）。这些k2个分数图对应于描述相对位置的k×k空间格子。例如，当k×k=3×3时，共有大小为9的分数图分别编码目标类别上{上左、上中、上右、中左、中中、中右、下左、下中、下右}的位置信息。

R-FCN最后是位置敏感的RoI池化层。该层聚合最后一个卷积层的输出，并为每个RoI生成分数。与[8，6]不同的是，我们的位置敏感RoI层进行选择性池化，对于k×k个bins中的每一个仅聚合k×k分数图中的其中一个分数图的响应。通过端到端的训练，这个RoI层使得最后一个卷积层可以学习到特定的位置敏感分数图。图1阐述了这个想法。图3和图4可视化了一个例子。详细介绍如下。

图3：对目标类别是人的图像进行R-FCN(k×k=3×3)可视化。

图4：当RoI与目标没有正确地重叠时的可视化。

Backbone（网络主干）架构。本文中典型的R-FCN是基于ResNet-101[9]的，但其他网络[10,23]（译者注：AlexNet、VGGNet）也适用。ResNet-101有100个卷积层，后面是全局平均池化和1000类的全连接层。我们删除了平均池化层和全连接层，只使用卷积层来计算特征图。我们使用由[9]的作者发布的ResNet-101，其在ImageNet[20]上进行了预训练。ResNet-101中的最后一个卷积块是2048维，我们增加一个随机初始化的1024维的1×1卷积层来进行降维（准确地说，这将表1中的网络深度增加了1）。然后，我们应用k2(C+1)个通道的卷积层来生成分数图，如下所述。

位置敏感的分数图和位置敏感的RoI池化。为了将位置信息显式地编码到每个RoI中，我们以规则网格的方式将每个RoI矩形框划分成k×k的bins。对于大小为w×h的RoI矩形，每个bins的大小约为w/k×h/k[8,6]。在我们的方法中，构建最后的卷积层为每个类别产生k2分数图。对于第(i,j)个(0≤i,j≤k−1) bin，我们定义了一个位置敏感的RoI池化操作，其只针对第(i,j)个分数图中进行池化：

这里rc(i,j)是第c个类别的第(i,j)个bin的池化结果，zi,j,c是k2(C+1)个分数图中的一个分数图，(x0, y0)表示一个RoI的左上角，n是bin中的像素数量，Θ表示网络中所有可学习的参数。第(i,j)个组块跨越和。公式（1）的操作如图1所示，其中每种颜色表示一对(i,j)。公式（1）中使用平均池化（本文中也使用平均池化），但也可以使用最大池化。

然后在RoI上对k2个位置敏感的分数进行投票。在本文中，我们通过对分数进行平均来简单地投票，为每个RoI产生一个(C+1)维的向量：。然后，我们计算跨类别的softmax值：。它们被用来在训练期间计算交叉熵损失，在推断期间对RoI进行排名。

我们以类似的方式进一步完成边界框回归[7，6]。除了上面的k2(C+1)维卷积层，我们附加了一个4k2维的同级卷积层用于边界框回归。在这组4k2维特征图上进行位置敏感的RoI池化，为每个RoI生成一个4k2维的向量。然后通过平均投票聚合成4维向量中。这个4维向量将边界框按照[6]参数化为t=(tx, ty, tw, th)。我们注意到，为了简单起见我们执行类别无关的边界框回归，但类别特定的对应部分（例如，具有4k2C维输出层）也是适用的。

位置敏感分数图概念的一部分受到了[3]的启发，[3]开发了用于样本级语义分割的FCN。我们进一步介绍了位置敏感的RoI池化层，它可以让学习的分数图用于目标检测。RoI层之后没有可学习的层，使得区域计算几乎是零成本的，并加速了训练和推断。

训练。通过预先计算的region proposals，很容易端到端训练R-FCN架构。根据[6]，我们定义的损失函数是每个RoI的交叉熵损失和边界框回归损失的总和：。这里c*是RoI的真实标签（c*=0表示背景）。是分类的交叉熵损失，Lreg是[6]中定义的边界框回归损失，t*表示真实的边界框。[c*>0]是一个指示符，如果参数为true，则等于1，否则为0。与[6]一样，我们设置平衡权重λ=1。我们将正样本定义为与真实边界框重叠的交并比（IoU）至少为0.5的ROI，否则为负样本。

我们的方法很容易在训练期间采用在线难样本挖掘（OHEM）[22]。我们可忽略的逐RoI计算使得几乎零成本的样本挖掘成为可能。假设每张图像有N个proposals，在前向传播中，我们评估所有N个proposals的损失。然后，我们按损失对所有的RoI（正例和负例）进行排序，并选择具有最高损失的B个RoI。反向传播[11]是基于选定的样本进行的。由于我们每个RoI的计算可以忽略不计，所以前向传播时间几乎不受N的影响，与[22]中的OHEM Fast R-CNN相比，其可能使训练时间加倍。我们在下一节的表3中提供全面的时间统计。

我们使用0.0005的权重衰减和0.9的动量。默认情况下，我们使用单尺度训练：调整图像的大小，使得尺度（图像的较短边）为600像素[6，18]。每个GPU处理1张图像，并为反向传播选择B=128个RoI。我们用8个GPU来训练模型（所以有效的最小批数据大小是8的倍数）。在VOC上我们对R-FCN进行fine-tune，使用0.001学习率进行2万次迭代和使用0.0001学习率进行1万次迭代。为了使R-FCN与RPN共享特征（图2），我们采用[18]中的四步交替训练，交替训练RPN和R-FCN。

推断。如图2所示，（在一个单一尺度600的图像上）得到在RPN和R-FCN之间共享的特征图。然后，RPN部分产生RoI，R-FCN部分在其上评估类别分数并回归边界框。在推断过程中，根据[18]，公平起见我们评估了300个RoI。作为标准的做法，使用0.3的IoU阈值[7]通过非极大值抑制（NMS）对结果进行后处理。

空洞和步长。我们的全卷积架构享有FCN广泛使用的语义分割的网络修改的好处[15，2]。特别的是，我们将ResNet-101的有效步长从32像素降低到了16像素，增加了分数图的分辨率。conv4阶段[9]（stride = 16）及之前的所有层都保持不变；第一个conv5块中的stride=2操作被修改为stride=1，并且conv5阶段的所有卷积卷积核都被修改为“hole algorithm”[15,2]（“Algorithm atrous”[16]）以弥补减少的步幅。为了进行公平的比较，RPN是在conv4阶段（与R-FCN共享）之上计算的，就像[9]中Faster R-CNN的情况那样，所以RPN不会受空洞技巧（atrous trick）的影响。下表显示了R-FCN的消融研究结果（k×k=7×7，没有进行难样本挖掘）。这个空洞技巧提高了2.6点的mAP。

可视化。在图3和图4中，我们使用k×k=3×3并可视化了R-FCN学习的位置敏感分数图。期望这些特定的分数图将在目标特定的相对位置被强激活。例如，“上中敏感”分数图大致在目标的顶部中心位置附近呈现高分数。如果一个候选框与一个真实目标精确地重叠（图3），则RoI中k2个bins的大部分都被强烈地激活，并且他们的投票获得较高的分数。相反，如果一个候选框与一个真实目标没有正确的重叠（图4），那么RoI中的k2个bins的一些没有被激活，最终导致投票分数也很低。

3. 相关工作

R-CNN[7]已经证明了在深度网络中使用region proposals[27，28]的有效性。R-CNN在裁剪区域和变形区域上进行卷积，卷积计算不在区域之间共享（表1）。SPPnet[8]、Fast R-CNN[6]和Faster R-CNN[18]是“半卷积”共享的，因为其中一个卷积子网络在整张图像上进行共享计算，另一个子网络是在每个单独区域上进行卷积运算。

较早之前已经存在“全卷积”模型的目标检测器。OverFeat[21]通过在共享卷积特征图上滑动多尺度窗口来检测目标（译者注：OverFeat使用滑动窗口的方式产生region）；同样地，在Fast R-CNN[6]和[12]中，研究了用滑动窗口替代region proposals。在这些案例中，可以将一个单尺度的滑动窗口重新设计为单个卷积层。Faster R-CNN [18]中的RPN组件是一个全卷积检测器，它可以相对于多个尺寸的参考框（anchors）预测边界框。[18]中最初的RPN是类别无关的，但是它的相对应的类别特定的也是适用的（参见[14]），我们在下面进行了评估。

另一个目标检测器家族采用全连接（fc）层来在整张图像上生成整体的目标检测结果，如[25，4，17]（译者注：17为YOLOv1）。

4. 实验

4.1 PASCAL VOC上的实验

我们在有20个目标类别的PASCAL VOC[5]上进行了实验。我们根据[6]在VOC 2007 trainval和VOC 2012 trainval（“07 + 12”）的联合数据集上进行了训练，并在VOC 2007测试集上进行了评估。目标检测精度通过mAP来度量。

图5：R-FCN在PASCAL VOC 2007测试集（83.6％mAP）上结果的精选示例。网络是ResNet-101，训练数据是07 + 12 + COCO。得分大于阈值0.6时显示。在Nvidia K40 GPU上每张图像的运行时间为170ms。

与其它全卷积策略的比较

虽然全卷积检测器是可以实现的，但是实验表明它们要达到良好的精度并非简单。我们使用ResNet-101研究了以下全卷积策略（或“几乎”全卷积的策略，即每个RoI只有一个分类器的全连接层）：

Naive Faster R-CNN。如引言中的讨论，可以使用ResNet-101中的所有卷积层来计算共享特征图，并且在最后的卷积层（conv5之后）之后采用RoI池化。在每个RoI上评估一个廉价的21个类别的全连接层（所以这个变体是“几乎”全卷积的）。为了比较的公平使用了空洞技巧。

类别特定的RPN。这个RPN按照[18]进行了训练，除了两类（是目标或不是目标）的卷积分类器层被替换为21类卷积分类器层。为了公平地比较，对于这个类别特定的RPN，我们对ResNet-101中的conv5层使用空洞技巧。

不使用位置敏感的R-FCN。通过设置k=1，我们移除了R-FCN中位置敏感的结构部分。这相当于在每个RoI上进行全局池化。

分析。表2显示了结果。我们注意到ResNet论文[9]中标准（非naive）的Faster R-CNN与ResNet-101（参见表3）达到了76.4%的mAP，在conv4和conv5之间插入了RoI池化层[9]。相比之下，naive 的Faster R-CNN（在conv5之后应用RoI池化）具有68.9%的更低的mAP（表2）。这种比较通过在Faster R-CNN系统的层之间插入RoI池化并在经验上证明了保留空间信息的重要性。在[19]中报道了类似的观察结果。

表2：使用ResNet-101的全卷积（或“几乎”全卷积）策略之间的比较。表中的所有的对比模型都使用了空洞技巧。不进行难样本挖掘。

表3：使用ResNet-101比较Faster R-CNN和R-FCN。在单个Nvidia K40 GPU上进行了时间评估。采用OHEM时，在前向传播中计算每张图像的N个RoI，并且选择128个RoIs用于反向传播。根据[18]，测试时使用了300个RoI。

类别特定的RPN具有67.6%（表2）的mAP，比标准Faster R-CNN的76.4%低约9个百分点。这个比较与[6，12]中的观测结果一致——实际上，类别特定的RPN类似于使用密集滑动窗口作为proposals的一种特殊形式的Fast R-CNN[6]，如[6，12]中所报道的较差结果。

另一方面，我们的R-FCN系统具有更好的准确性（表2）。其mAP（76.6%）与标准Faster R-CNN（76.4%，表3）基本相当。这些结果表明，我们的位置敏感策略设法编码有用的空间信息来定位目标，而在RoI池化之后不使用任何可学习的层。

位置敏感性的重要性通过设置k=1进一步进行了证明，此时R-FCN不能收敛。在这种退化的情况下，在RoI内不能显式捕获空间信息。此外，我们研究表明如果naive Faster R-CNN的ROI池化输出分辨率为1×1，其能够收敛，但是其mAP会进一步下降一大截至61.7%（表2）。

与使用ResNet-101的Faster R-CNN的比较

接下来，我们与标准的“Faster R-CNN + ResNet-101”[9]进行比较，它是PASCAL VOC、MS COCO和ImageNet基准测试中最强劲的竞争对手和最佳表现者。我们在下面的实验中使用k×k=7×7。表3显示了比较结果。Faster R-CNN评估了每个区域的10层子网络以达到良好的精度，但是R-FCN每个区域的成本可以忽略不计。在测试时使用300个RoI，Faster R-CNN每张图像花费0.42s，比我们的R-FCN慢了2.5倍，R-FCN每张图像只有0.17s（在K40 GPU上，这个数字在Titan X GPU上是0.11s）。R-FCN的训练速度也快于Faster R-CNN。此外，难样本挖掘[22]没有增加R-FCN的训练成本（表3）。当从2000个RoI进行难样本挖掘时训练R-FCN是可行的，在这种情况下，Faster R-CNN慢了6倍（2.9s vs. 0.46s）。但是实验表明，从更大的候选集（例如2000）中进行难样本挖掘是没有好处的（表3）。所以我们在本文的其他部分使用了300个RoI来进行训练和推断。

表4显示了更多的比较。根据[8]中的多尺度训练，我们在每次训练迭代中调整图像大小，使得尺度从{400, 500, 600, 700, 800}像素中进行随机地采样。我们测试时仍然使用600像素的单尺度，所以不添加测试时间成本。mAP是80.5%。此外，我们在MS COCO [13]训练验证集上训练我们的模型，然后在PASCAL VOC数据集上对其进行fine-tune。R-FCN达到83.6%的mAP（表4），该结果接近[9]中同样使用ResNet-101的“Faster R-CNN +++”系统。我们注意到，我们的对比结果是在每张图像0.17秒的测试速度下获得的，比花费3.36秒的Faster R-CNN +++快20倍，因为它进一步结合了迭代边界框回归、上下文和多尺度测试[9]。在PASCAL VOC 2012测试集上也观察到了类似的结果（表5）。

表4：使用ResNet-101在PASCAL VOC 2007测试集上的比较。“Faster R-CNN +++”[9]使用迭代边界框回归、上下文和多尺度测试。

表5：使用ResNet-101在PASCAL VOC 2012测试集上的比较。“07 ++ 12”[6]表示07训练+测试和12训练的联合数据集。†: http://host.robots.ox.ac.uk:8080/anonymous/44L5HI.html ‡: http://host.robots.ox.ac.uk:8080/anonymous/MVCM2L.html

关于深度的影响

下表显示了使用不同深度的ResNets的R-FCN结果[9]。当深度从50增加到101时，我们的检测精度增加了，但是深度152时达到了饱和。

关于region proposals的影响

R-FCN可以很容易地应用于其它的region proposals方法，如Selective Search（SS）[27]和Edge Boxes（EB）[28]。下表显示了使用不同proposals的结果（使用ResNet-101）。R-FCN使用不同的SS或EB，结果展示了我们方法的泛化性。

表7：PASCAL VOC 2007测试集上详细的检测结果

表8：PASCAL VOC 2012测试集上详细的检测结果。y: http://host.robots.ox.ac.uk:8080/anonymous/44L5HI.html z: http://host.robots.ox.ac.uk:8080/anonymous/MVCM2L.html

4.2 MS COCO上的实验

接下来，我们评估MS COCO数据集[13]中的80个目标类别。我们的实验包括8万张训练集、4万张验证集和2万张test-dev。我们设置学习率为0.001进行9万次迭代，紧接着设置学习率为0.0001进行3万次迭代，有效的mini批大小为8（译者注：使用8个GPU，每个GPU负责处理1张图像，因此批大小为8的倍数）。我们将交替训练[18]从4步扩展到5步（即在多训练一轮RPN后停止），当特征图被共享时略微提高了在该数据集上的准确性；我们还报告了两步训练足以达到相当好的准确性，但不共享这些特征。

图6：R-FCN在MS COCO test-dev数据集（31.5%mAP）上结果的精选示例。网络是ResNet-101，训练数据是MS COCO trainval。得分大于阈值0.6时显示。在Nvidia K40 GPU上每张图像的运行时间为170ms。

结果如表6所示。我们单尺度训练的R-FCN基准模型的验证结果为48.9%/27.6%。这与Faster R-CNN的基准模型相当（48.4%/27.2%），但我们的测试速度是Faster R-CNN的2.5倍。值得注意的是，我们的方法在小尺寸的目标（由[13]定义）上表现更好。我们多尺度训练（但测试时仍然为单尺度）的R-FCN在验证集上的结果为49.1%/27.8%，在test-dev上的结果是51.5%/29.2%。考虑到COCO较宽范围的目标尺度，按照[9]我们进一步评估多尺度的测试变体模型，并使用{200，400，600，800，1000}的测试尺度。mAP是53.2%/31.5%。这个结果接近MS COCO 2015比赛中第一名的成绩（使用ResNet-101的Faster R-CNN+++，55.7%/34.9%）。尽管如此，我们的方法更简单，并且没有添加[9]中所使用的一些花里胡哨的东西，例如上下文或迭代边界框回归等，并且在训练和测试中速度更快。

表6：使用ResNet-101在MS COCO数据集上比较。COCO标准的AP在IoU∈[0.5，0.95]上进行了评估。AP@0.5是PASCAL标准的AP，其在@IoU=0.5上进行评估。

5. 结论和将来的工作

我们提出了基于区域的全卷积网络，这是一个简单但精确且高效的目标检测框架。我们的系统自然地采用了设计为全卷积的最先进的图像分类骨干网络，如ResNet。我们的方法获得了与Faster R-CNN对应网络相比更具竞争力的准确性，但是在训练和推断上速度都快很多。

我们故意保持R-FCN系统如论文中介绍的那样简单。已经有一系列针对语义分割（例如，参见[2]）开发的FCN的正交扩展，以及基于区域的用于目标检测方法的扩展（例如参见[9，1，22]）。我们期望我们的系统能够轻松享有这个领域的进步带来的好处。

参考文献

[1] S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016.

[2] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. In ICLR, 2015.

[3] J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks.arXiv:1603.08678, 2016.

[4] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In CVPR, 2014.

[5] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes (VOC) Challenge. IJCV, 2010.

[6] R. Girshick. Fast R-CNN. In ICCV, 2015.

[7] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.

[8] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV. 2014.

[9] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.

[10] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012.

[11] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural computation, 1989.

[12] K. Lenc and A. Vedaldi. R-CNN minus R. In BMVC, 2015.

[13] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV, 2014.

[14] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. Reed. SSD: Single shot multibox detector. arXiv:1512.02325v2, 2015.

[15] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.

[16] S. Mallat. A wavelet tour of signal processing. Academic press, 1999.

[17] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. In CVPR, 2016.

[18] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015.

[19] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. arXiv:1504.06066, 2015.

[20] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.

[21] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014.

[22] A. Shrivastava, A. Gupta, and R. Girshick. Training region-based object detectors with online hard example mining. In CVPR, 2016.

[23] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.

[24] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015.

[25] C. Szegedy, A. Toshev, and D. Erhan. Deep neural networks for object detection. In NIPS, 2013.

[26] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the inception architecture for computer vision. In CVPR, 2016.

[27] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. IJCV, 2013.

[28] C. L. Zitnick and P. Dollár. Edge boxes: Locating object proposals from edges. In ECCV, 2014.

bigcindy

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
目标检测经典论文——R-FCN论文翻译（纯中文版）：基于Region的全卷积神经网络进行目标检测（R-FCN: Object Detection via Region-based Fully Con）

目标检测经典论文翻译汇总：[翻译汇总]翻译pdf文件下载：[下载地址]此版为纯中文版，中英文对照版请稳步：[R-FCN中英文对照版] R-FCN: Object Detection via Region-based Fully Convolutional Networks 基于Region的全卷积神经网络进行目标检测 Jifeng Dai Microsoft Research Yi Li* Tsinghua Universi
复制链接

扫一扫

专栏目录