R-CNN论文翻译

最新推荐文章于 2023-04-01 13:44:57 发布

Lovefeifei20200119

最新推荐文章于 2023-04-01 13:44:57 发布

阅读量531

点赞数 1

分类专栏：学习深度学习论文阅读

本文链接：https://blog.csdn.net/qq_28019591/article/details/84105880

版权

学习同时被 3 个专栏收录

31 篇文章 2 订阅

订阅专栏

深度学习

26 篇文章 1 订阅

订阅专栏

论文阅读

3 篇文章 0 订阅

订阅专栏

Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5)

丰富的特征层次结构，用于精确的目标检测和语义分割技术报告（v5）

摘要

在典型的PASCAL VOC数据集上测量的对象检测性能在过去几年中已经稳定下来。最好的方法是复杂的系统，通常将多个低级图像特征与高级语境相结合。在本文中，我们提出了一种简单可扩展的检测算法，相对于VOC2012的先前最佳结果，平均精度（mAP）提高了30％以上，达到53.3％的mAP。我们的方法结合了两个关键的改进：（1）可以将大容量卷积神经网络（CNN）应用于自下而上的区域提案，以便定位和分割对象。（2）当标记的训练数据稀缺时，对辅助任务进行训练，然后进行域特定的微调，可以显着提升性能。由于我们将区域提案与CNN相结合，所以我们称之为我们的方法R-CNN：具有CNN特征的区域。我们还将R-CNN与OverFeat进行比较，OverFeat是最近提出的基于类似CNN架构的滑动窗口检测器。我们发现R-CNN在20类的ILSVRC2013检测数据集上大幅超越OverFeat。完整系统的源代码在http://www.cs.berkeley.edu/~rbg/rcnn。

2.4 PASCAL VOC 2010-12上的结果

1 简介

特征很重要。各种视觉识别任务在过去的十年取得了很大的进步，这取决于SIFT[29]和HOG[7]的使用。但是如果我们观察典型的视觉识别任务的性能，如PASCAL VOC对象检测[15]，会发现2010-2012年进展缓慢，仅通过组合不同模型和使用已有方法的变体来获得很小的改进。

SIFT和HOG是块状方向直方图，一种可以大致与V1中的复合细胞，灵长类动物视觉途径中的第一皮质区域相关联的表示。但是我们也知道识别发生在后续的几个阶段，这表明可能存在层次化，多阶段的计算特征的过程，这些过程对于视觉识别更为有用。

Fukushima的“神经认知机”[19]是一种受生物学启发的分层和偏移不变的模式识别模型，这只是一个早期的尝试。但是，神经认知机缺乏监督训练算法。卷积神经网络（CNN）是一类扩展神经认知机的模型，建立在Rumelhart等[33]、LeCun等[26]提出的通过反向传播进行的随机梯度下降的基础之上。

CNN在20世纪90年代有广泛的使用（例如[27]），但是随着支持向量机的兴起，CNN已经逐渐淡出了公众视野。 2012年，Krizhevsky等[25]通过在ImageNet大型视觉识别挑战（ILSVRC）上显示出更高的图像分类准确度，重新唤起了人们对CNN的兴趣[9,10]。他们的成功是通过使用大型CNN训练120万张带标记图像，以及对LeCun的CNN（例如，max(x，0)非线性整流和“Dropout”正规化）的一些改进。

ImageNet结果的重要性在ILSVRC 2012研讨会期间大有争议。核心问题可以归纳为一下几点：在多大程度上，CNN在ImageNet上的分类结果可以泛化到PASCAL VOC挑战上的目标检测结果？

我们通过弥合图像分类和对象检测之间的差距来回答这个问题。本文首先提出，与基于更简单的HOG类特征的系统相比，CNN可以显著提高PASCAL VOC的目标检测性能。为了实现这一结果，我们主要关注两个问题：（1）使用深度网络定位目标；（2）只使用少量带标记的检测数据训练高容量模型。

与图像分类不同，检测需要在图像中定位（可能是许多）目标。一种方法是将定位作为回归问题。然而，Szegedy等人与我们并行的工作[38]，表明这种策略在实践中可能不会很好（他们在VOC 2007上的mAP为30.5％，而我们的方法达到了58.5％）。另一种方法是构建一个滑动窗口检测器。 CNN已经以这种方式被使用了至少二十年，通常是在受限物体上，如面部[32,40]和行人[35]。为了保持高空间分辨率，这些CNN通常只有两个卷积和池化层。我们也考虑了采用滑动窗口方法。然而，在我们的网络中，具有五个卷积层的单元在输入图像中具有非常大的接收场（195×195像素）和步长（32×32像素），这使得在滑动窗口内的精确定位成为公开的技术挑战。

相反，我们通过在“识别使用区域”范式[21]中操作来解决CNN的定位问题，这已经成功实现了目标检测[39]和语义分割[5]。在测试时间，我们的方法为输入图像生成大约2000个类别无关的区域提案，使用CNN从每个提案中提取固定长度的特征向量，然后对每个区域进行类别特定的线性SVM分类。我们使用简单的技术（图像仿射变换）来计算每个区域提案的固定大小的CNN输入，而不管区域的形状。图1概述了我们的方法，并突出显示了一些结果。由于我们的系统将区域提案与CNN相结合，所以我们将方法命名为R-CNN：具有CNN特征的区域。

【图1：目标检测系统概述。我们的系统（1）输入一张图像；（2）提取约2000个自下而上区域提案；（3）使用大的卷积神经网络（CNN）计算每个提案的特征；然后（4）使用类别特定的线性SVM。 R-CNN在PASCAL VOC 2010中实现了53.7％的平均精度（mAP）。相较之下，[39]使用了相同的区域提案，但是使用了空间金字塔和视像单词方法，达到了35.1％的mAP。主流的可变部件模型为33.4％。在200类的ILSVRC2013检测数据集上，R-CNN的mAP为31.4％，超过OverFeat很多[34]，OverFeat先前最佳结果为24.3％。】

在本文的更新版本中，我们通过在200类ILSVRC2013检测数据集上运行R-CNN，提供了R-CNN和最近提出的OverFeat[18]检测系统的比较。 OverFeat使用滑动窗口CNN进行检测，是目前在ILSVRC2013检测中性能最好的方法。我们的R-CNN明显优于OverFeat，mAP为31.4％，而OverFeat是24.3％。

检测面临的第二个挑战是带标记的数据很少，目前可用的数量不足以训练大型CNN。这个问题的常规解决方案是使用无监督的预训练，然后进行辅助微调[35]。本文的第二个主要贡献是在大型辅助数据集(ILSVRC)上进行有监督预训练，然后对小数据集(PASCAL)进行域特定的微调，这是在数据稀缺时训练高容量CNN模型的有效范例。在我们的实验中，微调将检测的mAP性能提高了8个百分点。微调后，我们的系统在VOC 2010上实现了54％的mAP，而高度优化的基于HOG的可变部件模型(DPM)为33％[17,20]。Donahue等人同时进行的工作[12]表明可以使用Krizhevsky的CNN（无需微调）作为黑盒特征提取器，在多个识别任务（包括场景分类，细粒度子分类和域适配）中表现出色。

我们的系统也很有效率。唯一的类特定计算是相当小的矩阵向量乘积和贪心的非极大值抑制。这种计算属性来自于所有样本共享的特征，并且比以前使用的区域特征维度还低两个数量级（参见[39]）。

了解我们的方法的失败模式对于改进它也是至关重要的，因此我们给出了由Hoiem等人22提出的的检测分析工具的结果。作为这一分析的中间后果，我们证明了一种简单的bounding-box回归方法可以显著地减少定位误差，这是主要的误差模式。

在发掘技术细节之前，我们注意到，由于R-CNN在区域上运行，将其扩展到语义分割的任务是很自然的。经过少量的修改，我们也在PASCAL VOC分割任务中取得了有竞争力的成果，VOC 2011测试集的平均分割精度为47.9％。

2 用R-CNN进行目标检测

我们的目标检测系统由三个模块组成。第一个生成类别无关区域提案。这些提案定义了可用于我们的检测器的候选检测集。第二个模块是从每个区域提取固定长度特征向量的大型卷积神经网络。第三个模块是一组特定类别的线性SVM。在本节中，我们介绍每个模块的设计思路，描述其测试时使用情况，详细介绍其参数的学习方式，并给出在PASCAL VOC 2010-12和ILSVRC2013上的检测结果。

2.1 模块设计

2.1.1 区域提案

各种最近的论文提供了生成类别无关区域提案的方法。例子包括：对象性[1]，选择性搜索[39]，类别无关对象提议[14]，约束参数最小化(CPMC)[5]，多尺度组合分组[3]和Cireşan等提出的[6]，通过将CNN应用于特定间隔的方块来检测有丝分裂细胞，这是区域提案的特殊情况。具体的区域提案方法对于R-CNN是透明的，但是我们使用选择性搜索以便于与先前检测工作的对照比较（例如[39][41]）。

2.1.2 特征提取

我们使用Krizhevsky等人[25]提出的CNN的Caffe[24]实现，从每个区域提案中提取4096维特征向量。将减去像素平均值的227×227分辨率的RGB图像通过五个卷积层和两个全连接层向前传播来计算特征。可以参考[24,25]以获得更多的网络架构细节。

为了计算区域提案的特征，我们必须首先将该区域中的图像数据转换为与CNN兼容的格式（其架构需要固定227×227像素大小的输入）。在许多可能的针对任意形状区域的变换中，我们选择最简单的。不管候选区域的大小或横纵比如何，我们将整个区域不保持横纵比缩放到所需的大小。在缩放之前，我们扩大了被缩放的区域，使得在缩放后，原始区域边界到现有区域边界宽度为p像素（我们使用p=16）。图2展示了缩放训练区域的随机抽样。其它的缩放方案在附录A中讨论。

【图2：缩放后的VOC 2007训练样本】

2.2 测试

在测试时，我们对测试图像进行选择性搜索，以提取大约2000个区域提案（我们在所有实验中使用选择性搜索的“快速模式”）。然后缩放每个区域，并通过CNN向前传播，以计算特征。最后，对于每个类，我们使用针对该类训练的SVM来对每个提取的特征向量进行评分。给定图像中的所有区域的得分，我们应用贪婪非极大值抑制（每个类别独立进行），在训练时学习一个阈值，如果其与得分较高的区域的重叠部分(IoU)高于这个阈值，则丢弃这个区域。

2.2.1 性能分析

两种性质使检测效率高。首先，所有CNN参数都在所有类别中共享。其次，与其他常见方法比较，由CNN计算出的特征向量是低维度的，例如具有空间金字塔和视像单词的方法。UVA检测系统[39]中使用的特征比我们（维度，360k对比4k）大两个数量级。

这种共享的结果是计算区域建议和特征（GPU上的13秒/图像或CPU上的53秒/图像）的时间在所有类别上进行摊销。唯一的类特定计算是特征与SVM权重和非极大值抑制之间的点积。在实践中，图像的所有点积运算都被整合为单个矩阵与矩阵的相乘。特征矩阵通常为2000×4096，SVM权重矩阵为4096×N，其中N为类别数。

分析表明，R-CNN可以扩展到数千个类，而不需要使用如散列这样的技术。即使有10万个类，在现代多核CPU上产生的矩阵乘法只需10秒。这种效率不仅仅是使用区域提案和共享特征的结果。由于其高维度特征，UVA系统的速度将会降低两个数量级，并且需要134GB的内存来存储10万个线性预测器。而对于低维度特征而言，仅需要1.5GB内存。

将R-CNN与Dean等人最近的工作对比也是有趣的。使用DPM和散列的可扩展检测[8]。在引入1万个干扰类的情况下，每个图像的运行时间为5分钟，其在VOC 2007上的mAP约为16％。通过我们的方法，1万个检测器可以在CPU上运行大约一分钟，而且由于没有逼近，可以使mAP保持在59％（见3.2消融研究）。

2.3 训练

2.3.1 监督预训练

我们仅通过使用图像级标记来区分性地对大型辅助数据集（ILSVRC2012分类）进行CNN预训练（此数据没有检测框标记）。使用开源的Caffe CNN库进行预训练[24]。简而言之，我们的CNN几乎符合Krizhevsky等人的论文中[25]的表现，在ILSVRC2012分类验证集上获得的top-1错误率高出2.2个百分点。这种差异是由于训练过程中的简化造成的。

2.3.2 域特定的微调

为了使CNN适应新任务（检测）和新域（缩放的提案窗口），我们仅使用缩放后的区域提案继续进行CNN参数的随机梯度下降(SGD)训练。除了用随机初始化的(N + 1)路分类层（其中N是类别数，加1为背景）替换CNN的ImageNet特有的1000路分类层，CNN架构不变。对于VOC，N = 20，对于ILSVRC2013，N = 200。我们将所有区域提案与检测框真值IoU ≥0.5的区域作为正样本，其余的作为负样本。我们以0.001（初始学习率的1/10）的学习率开始SGD，这样可以在不破坏初始化的情况下进行微调。在每个SGD迭代中，我们统一采样32个正样本（在所有类别中）和96个负样本，以构建大小为128的小批量。将采样的正样本较少是因为它们与背景相比非常罕见。

2.3.3 目标类别分类器

考虑训练二分类器来检测汽车。很明显，紧紧围绕汽车的图像区域应该是一个正样本，一个与汽车无关的背景区域应该是一个负样本。较不清楚的是如何标注部分重叠汽车的区域。我们用IoU重叠阈值来解决这个问题，在这个阈值以下的区域被定义为负样本。重叠阈值0.3是通过在验证集上尝试了0,0.1,…,0.50,0.1,…,0.5的不同阈值选择出来的。我们发现选择这个阈值是很重要的。将其设置为0.5，如[39]，mAP会降低5个点。同样，将其设置为0会将mAP降低4个点。正样本被简单地定义为每个类的检测框真值。

一旦提取了特征并应用了训练标签，我们就可以优化每类线性SVM。由于训练数据太大内存不够，我们采用标准的难分样本挖掘方法[17,37]。难分样本挖掘可以快速收敛，实际上所有图像遍历一边，mAP就停止增长了。

在附录B中，我们将讨论为什么在微调与SVM训练中，正样本和负样本的数量不同。我们还讨论了涉及训练检测SVM的权衡，而不是简单地使用微调CNN的最终softmax层的输出。

2.4 PASCAL VOC 2010-12上的结果

根据PASCAL VOC最佳实践[15]，我们在VOC 2007数据集上验证了所有设计和超参数（见3.2节消融研究）。对于VOC 2010-12数据集的最终结果，我们在VOC 2012 train上对CNN进行了微调，并在VOC 2012 trainval上优化检测SVM。我们将测试结果提交给评估服务器，对于两种主要算法变体（带有和不带有检测框回归）的每一种，都只提交一次。

表1显示了VOC 2010的完整结果。我们与其它四种很优秀的方法进行了比较，包括SegDPM[18]，它将DPM检测器与语义分割系统的输出相结合[4]，并使用了上下文重排。最具可比性的是Uijlings等人的UVA系统[39]，因为我们的系统使用相同的区域提案算法。为了对区域进行分类，他们的方法构建了一个四级空间金字塔，并用密集采样的SIFT，扩展对准SIFT和RGB-SIFT描述符，每个矢量用4000字的码本量化。使用直方图交叉核心SVM进行分类。与其多特征非线性内核SVM方法相比，我们将mAP从35.1％提高到了53.7％，同时也快得多（见2.2节测试）。我们的方法在VOC 2011/12 test中实现了接近的性能（53.3％的mAP）。

【表1：VOC 2010测试的平均检测精度(%)。R-CNN与UVA和Regionlets最具可比性，因为所有方法都使用选择性搜索区域提案。检测框回归（BB）在附录C中描述。在本文发布时，SegDPM是PASCAL VOC排行榜中表现最好的方法。†DPM和SegDPM使用其他方法未使用的上下文重排。】

2.5 ILSVRC2013检测结果

我们使用与PASCAL VOC相同的系统超参数，在200类的ILSVRC2013检测数据集上运行R-CNN。我们遵循相同的原则，仅提交测试结果给ILSVRC2013评估服务器两次，一次有检测框回归，一次没有。

图3比较了R-CNN与ILSVRC 2013竞赛中的结果以及竞赛后提交的OverFeat结果[34]。 R-CNN达到了31.4％的mAP，远超过OverFeat的24.3％的第二好成绩。为了更好地理解不同类别的AP分布情况，在表8给出了每个类别的AP。大多数方法（OverFeat、NEC-MU、UvA-Euvision 、Toronto A和UIUC-IFP）使用卷积神经网络，表明CNN在目标检测中使用方法的差异可以导致结果有很大的差别。

在第4节ILSVRC2013检测数据集中，我们概述了ILSVRC2013检测数据集，并提供了在运行R-CNN时详细配置信息。

【图3：(左)ILSVRC2013检测测试集的平均平均精度。方法标*表示使用外部训练数据(所有情况下图像和标签来自ILSVRC分类数据集)。(右)每个方法200个平均精度值的方框绘图。由于每个类AP尚未可用，所以没有显示比赛后的OverFeat结果(R-CNN的每类AP在表8中，也包含在上传到arXiv.org的科技报告资源中;见R-CNN-ILSVRC2013-APs.txt)。红线表示中位数AP，方框底部和顶部是第25和第75百分位数。晶须扩展到每个方法的最小和最大AP，每个AP都被绘制成晶须上的一个绿点(最好通过缩放进行数字化查看)】

【表8：ILSVRC2013检测测试集上每类的平均精度(%)。】

3 可视化，消融和错误模式

3.1 可视化学习到的特征

第一层卷积核可以直观可视化，易于理解[25]。它们捕获定向边缘和相对颜色。了解后续层更具挑战性。Zeiler和Fergus在[42]中提出了一种有视觉吸引力的反卷积方法。我们提出一个简单（和补充）非参数方法，直接显示网络学到的内容。

这个想法是在网络中列出一个特定的单元（特征），并将其用作它自己的目标检测器。也就是说，我们在大量的区域提案（约1000万）中计算这个单元的激活，将提案按激活从大到小排序，然后执行非极大值抑制，然后显示激活最大的提案。通过准确显示它激活了哪些输入，我们的方法让所选单元“自己说话”。我们避免平均，以看到不同的视觉模式，并深入了解这个单元计算的不变性。

我们可视化了来自pool5的单元，这是网络第五层，也是最终卷积层的最大池化输出。pool5的特征图维度是6×6×256=9216。忽略边界效应，每个pool5单元在原始227×227像素输入中具有195×195像素的感受视野（相当于对227×227的输入图像，卷积核大小为195×195，padding=4，step=8，输出大小(227-195+2×4)/8+1=6×6）。位于中央的pool5单元具有几乎全局的视野，而靠近边缘的则有一个较小的裁剪的视野。

图4中的每一行都显示了在VOC 2007 trainval上进行微调的CNN中的pool5单元的前16个最大激活的区域，包括256个功能独特的单元中的6个（更多参见附录D）。选择这些单元以显示网络学习的有代表性的样本。在第二行，我们看到一个在狗脸和点阵列上触发的单元。与之相应的第三行单元是红色斑点检测器。还有用于人脸和更抽象图案的检测器，例如文本和具有窗口的三角形结构。网络似乎学习了一种将少量类别调谐特征与形状，纹理，颜色和材质属性的分布式表示相结合的表示。随后的全连接层fc6具有对这些丰富特征的大量组合进行建模的能力。

【图4：六个pool5单元的激活最大的区域。感受野和激活值以白色绘制。某些单元与概念对齐，例如人（第1行）或文本（第4行）。其它单元捕获纹理和材料属性，如点阵列（第2行）和镜面反射（第6行）】

3.2 消融研究

3.2.1逐层分析性能，没有微调

为了了解哪些层对于检测性能至关重要，我们分析了CNN最后三层在VOC 2007数据集上的结果。上一节简要描述了pool5。最后两层总结如下。

fc6层完全连接到pool5。为了计算特征，它将pool5的特征图（2000*4096）乘以一个4096×9216的权重矩阵（重构为9216维向量），然后加上一个偏置向量。最后应用ReLU线性整流(ReLU：g(x)=max(0,x))。

fc7层是网络的最后一层。这是通过将由fc6计算的特征乘以4096×4096权重矩阵来实现的，并且类似地加上了偏置向量并应用ReLU线性整流。

我们首先来看看没有在PASCAL上进行微调的CNN的结果，即所有的CNN参数仅在ILSVRC 2012上进行了预训练。逐层分析性能（表2第1-3行）显示，fc7的特征总体上差于fc6的特征。这意味着可以删除29％或大约1680万的CNN参数，而不会降低mAP。更令人惊讶的是，即使使用仅6％的CNN参数来计算pool5特征，除去fc7和fc6也产生相当好的结果。CNN的大部分表达能力来自其卷积层，而不是来自于更密集的全连接层。这一发现表明通过仅使用CNN的卷积层来计算任意大小图像的类似HOG意义上的密集特征图的潜在实用性。这种表示方式可以在pool5特征之上实现包括DPM在内的滑动窗口检测器。

3.2.2逐层分析性能，微调

现在我们来看看在PASCAL上进行微调的CNN的结果。提高是惊人的（表2第4-6行）：微调使mAP提高8.0个百分点至54.2％。对于fc6和fc7，微调的提升比对pool5大得多，这表明从ImageNet中学习的pool 5特性是一般性的，并且大多数改进是从学习域特定的非线性分类器获得的。

【表2：在VOC 2007 test上的检测平均精度(%)。第1-3行显示了没有进行微调的R-CNN性能。第4-6行显示了CNN在ILSVRC 2012上预训练，然后在VOC 2007 trainval上进行微调(FT)的结果。第7行包含一个简单的bounding-box回归(BB)阶段，它减少了定位错误(附录C)。第8-10行将DPM方法作为强基线。第一种方法只使用HOG，而接下来的两种方法使用不同的特性学习方法来增加或替换HOG。】

3.2.3与近期特征学习方法的比较

近期在PASCAL VOC检测中已经开始尝试一些特征学习方法。我们来看两种最新的基于DPM模型的方法。作为参考，我们还包括标准的基于HOG的DPM的结果[20]。

第一个DPM特征学习方法是DPM ST[28]，使用“草图表征”概率直方图增强了HOG特征。直观地，草图表征是通过图像片中心的轮廓的紧密分布。草图表征概率在每个像素处被随机森林计算，该森林经过训练，将35 x 35像素的图像片分类为150个草图表征或背景之一。

第二种方法是DPM HSC[31]，使用稀疏编码直方图(HSC)替代HOG。为了计算HSC，使用100个7 x 7像素（灰度图）元素的学习词典，在每个像素处求解稀疏代码激活。所得到的激活以三种方式调整（全部和两个半波），空间合并，单位L2归一化，和功率变换(x←sign(x)|x|α)。

所有R-CNN变体的都优于三个DPM基线（表2第8-10行），包括使用特征学习的两个。与仅使用HOG特征的最新版本的DPM相比，我们的mAP提高了20个百分点以上：54.2％对比33.7％，相对改进61％。HOG和草图表征的组合与单独的HOG相比mAP提高2.5个点，而HSC在HOG上mAP提高了4个点（使用内部私有的DPM基线进行比较，两者都使用非公开实现的DPM，低于开源版本[20]）。这些方法的mAP分别达到29.1％和34.3％。

3.3 网络架构

本文的大多数结果使用了Krizhevsky等人的网络架构[25]。然而，我们发现架构的选择对R-CNN检测性能有很大的影响。在表3中我们使用Simonyan和Zisserman最近提出的16层深度网络[43]并给出了在VOC 2007测试的结果。该网络是最近2014年ILSVRC分类挑战中表现最好的网络之一。网络具有由13层3×3卷积核组成的均匀结构，其中散布五个最大池化层，最后接三个全连接层。我们将该网络称为“O-Net”即牛津网络，基准称为“T-Net”即多伦多网络。

为了在R-CNN中使用O-Net，我们从Caffe模型库下载了预训练的VGG_ILSVRC_16_layers模型(https://github.com/BVLC/caffe/wiki/Model-Zoo)。然后我们使用与T-Net一样的方法对网络进行了微调。唯一的区别是根据需要使用更小的minibatches（24个样本），以适应GPU内存。表3中的结果显示，具有O-Net的R-CNN基本上优于T-Net的R-CNN，将mAP从58.5％提高到66.0％。然而，在计算时间方面存在相当大的缺陷，O-Net的前进速度比T-Net长约7倍。

【表3：两种不同CNN架构在VOC 2007检测测试的平均精度（％）。前两行是使用表2中Krizhevsky等人的架构（T-Net）的结果。第三和第四行使用Simonyan和Zisserman（O-Net）最近提出的16层架构[43]。】

3.4检测错误分析

为了揭示我们的方法的错误模式，我们应用了Hoiem等人的优秀检测分析工具[23]，以了解微调如何改变它们，并将我们的错误类型与DPM比较。分析工具的完整介绍超出了本文的范围，可以参考[23]了解更多的细节（如“标准化AP”）。千言万语不如一张图，我们在下图（图5和图6）的标题中讨论。

【图5：排名第一的假阳性(FP)类型分布。随着更多的FP按照分数递减顺序被考虑，每个图表显示FP类型的演变分布。每个FP分为4种类型：Loc（定位精度差，检测框与真值的IoU重叠在0.1到0.5之间或者是重复的检测）；Sim（与相似类别混淆）；Oth（与不相似的目标类别混淆）；BG（检测框标在了背景上）。与DPM（参见[23]）相比，很明显更多的错误是由于定位不当造成的，而不是与背景或其他对象类别混淆，表明CNN特征比HOG更具有识别力。松散的定位可能是由于我们使用了自下而上的区域提案以及CNN进行全图像分类的预训练模型所获得的位置不变性。第三列展示了我们的简单边界框回归方法如何修复许多定位错误。】

【图6：目标特点的敏感度。每个图显示六个不同目标特点（遮挡、截断、边界区域、纵横比、视角、局部可见性）内最高和最低性能的子集的平均值（跨类别）标准化AP（参见[23]）。我们展示了我们的方法（R-CNN）有或没有微调（FT）和边界回归（BB）以及DPM voc-release5的图。总体而言，微调并不会降低敏感度（最大和最小值之间的差异），但是对于几乎所有的特征，都能极大地提高最高和最低子集的性能。这表明，正如基于我们如何缩放网络输入而推测的那样，微调不仅仅是简单地提高纵横比和边界区域的最低性能子集的性能。相反，微调可以改善所有特征的鲁棒性，包括遮挡、截断、视角和局部可见性。】

3.5 Bounding-box回归

基于错误分析，我们实现了一种简单的方法来减少定位误差。受DPM中使用的边界框回归的启发[17]，我们训练了一个线性回归模型，使用在区域提案上提取的pool5特征来预测一个新的检测框。详细情况见附录C。表1、表2和图5中的结果表明，这种简单的方法解决了大量的错误定位检测，将mAP提高了3到4个点。

3.6定性结果

文中给出了ILSVRC2013的定性检测结果如下图（图8和图9）所示。从val2集合中随机抽取每张图像，并显示所有精度大于0.5的检测器的所有检测结果。请注意，这些不是策划的，并给了一个正在工作的探测器的实际的效果。图10和图11给出了更多的定性结果，但这些都是经过策划的。我们选择每个图像是因为它包含了有趣的、令人惊讶的或有趣的结果。这里还显示了所有精度大于0.5的检测结果。

【图8：在val2上达到31.0％mAP的配置的检测结果示例。每个图像都是随机抽样的（这些都没有刻意挑选）。显示了所有精度大于0.5的检测结果，并标记了预测的类别和来自检测器的P-R(precision-recall)曲线检测的精度。建议使用变焦技术进行数字化观看（可以放大以观看清楚）】

【图9：更多随机选择的示例。详细信息请参见图8。建议使用变焦技术进行数字化观看。】

【图10：经过挑选的示例。我们选择每一张图片是因为我们发现它令人印象深刻，令人惊讶，有趣，或有趣。建议使用变焦技术进行数字化观看。】

【图11：更多经过挑选的示例。详细信息请参见图10。建议使用变焦技术进行数字化观看】

4 ILSVRC2013检测数据集

在第2节（用R-CNN进行目标检测）中，我们给出了ILSVRC2013检测数据集的结果。该数据集与PASCAL VOC不太一致，需要选择如何使用它。由于这些选择是重要的，所以我们将在这一节中介绍它们。

4.1 数据集概述

ILSVRC2013检测数据集分为三组：训练(395,918)，验证(20,121)和测试(40,152)，其中每个集合的图像数目在括号中。验证和测试集是从相同的图像分布中划分的。这些图像与PASCAL VOC图像中的场景和复杂性（目标数量，杂波数量，构成变化等）类似。验证和测试集是详尽标注的，这意味着在每个图像中，来自所有200个类的所有实例都用边界框标注。相比之下，训练集来自ILSVRC2013分类图像分布。这些图像具有更多的可变复杂性，倾向于单个位于图像中心的目标的图像。与验证和测试集不同，训练集（由于它们的数量很多）没有详尽标注。在任何给定的训练图像中，200个类别的实例可能被标注也可能不被标注。除了这些图像集，每个类都有一组额外的负样本集。负样本经过人工检查以确认它们不包含任何相关类的实例。本文研究没有使用负样本集。有关如何收集和标注ILSVRC的更多信息可以在[11][36]中找到。

这些数据集的分组的性质为训练R-CNN提供了许多选择。训练图像不能用于难负样本挖掘训练，因为标注不详尽。负样本从何而来？此外，训练图像具有不同于验证和训练集的分布。训练图像是否应该被使用，如果是，在多大程度上？虽然我们还没有彻底评估大量的选择，但是根据以往的经验，我们提出了一个看似最明显的路径。

我们的总体策略是严重依赖验证集，并使用一些训练图像作为一个辅助正样本来源。为了使用验证集进行训练和验证，我们将其分成大小大致相等的“val1”和“val2”集。由于某些类在val中的数量非常少（最小的只有31个，并且有一半连110个都不到），所以产生一个近似地类间均衡划分是很重要的。为此，产生了大量的候选划分，并选择了最大相对类间不平衡的最小值（相对不平衡度被定义为|a−b|/(a+b)，其中a和b是两个集合各自的类计数）。每个候选划分是通过使用其类计数作为特征对val图像进行聚类生成的，然后是一个可以改善划分平衡的随机局部搜索。这里使用的特定划分具有约11％的最大相对类间失衡和4％的中值相对类间失衡。val1/val2划分和用于产生它们的代码将被公开提供，以允许其他研究人员将他们的方法与在本文中使用的验证集划分方法进行比较。

4.2 区域提案

我们遵循用于PASCAL检测的区域提案方法。选择性搜索[39]在val1，val2中的每个图像上以“快速模式”运行，并进行测试（但不是在训练图像上）。需要一个小的修改来处理选择性搜索不是尺度不变的，所以产生的区域数量取决于图像分辨率。ILSVRC的图像大小范围从非常小到少量几百万像素的图像，因此我们在运行选择性搜索之前，将每个图像的大小调整为固定的宽度（500像素）。在val上，选择性搜索导致每个图像上平均有2403个区域提案，所有检测框真值（以0.5 IoU阈值）的召回率91.6％。这一召回率明显低于PASCAL的约98％，表明该区域提案阶段有明显的改善空间。

4.3 训练数据

对于训练数据，我们形成了一套图像和方框，其中包括val1的所有选择性搜索和检测框真值（真实标注的），以及训练集中每个类别最多N个检测框真值（在训练集中如果一个类别的检测框真值数少于N个，那就有多少用多少）。我们将把这个图像和框的数据集称为val1+trainN。在消融研究中，我们给出了在val2上，N∈{0,500,1000}的mAP（见4.5节-消融实验）。

R-CNN中的三个阶段需要训练数据：（1）CNN微调；（2）检测器SVM训练；（3）Bounding-box 回归训练。CNN微调使用与PASCAL完全相同的设置，在val1+trainN上进行5万次SGD（注：SGD为随机梯度下降）迭代。使用Caffe在一块NVIDIA Tesla K20显卡上微调花了13个小时。对于SVM训练，使用来自val1+trainN的所有检测框真值作为各自类别的正样本。对来自val1的5000张随机选择的图像的子集执行难负样本重训练。最初的实验表明，与5000个图像子集(大约一半)相比，在val1上的难负样本重训练仅使mAP下降了0.5个百分点，但是却将SVM训练时间缩短了一半。没有从训练集中采样负样本是因为标注不详尽。没有使用额外的经过验证的负样本。Bounding-box回归器在val1上进行训练。

4.4 验证和评估

在将结果提交给评估服务器之前，我们使用上述训练数据验证了数据使用选择以及微调和bounding-box回归对val 2集的影响。所有系统超参数（例如，SVM C超参数，区域缩放中使用的padding，NMS阈值，bounding-box回归超参数）固定为与PASCAL使用相同的值。毫无疑问，这些超参数选择中的一些对ILSVRC来说稍微不太理想，但是这项工作的目标是在ILSVRC上产生一个不需要大量数据集调优的初步R-CNN结果。在选择val2上的最佳配置后，我们正确地提交了两个结果文件到ILSVRC2013评估服务器。第一个提交没有bounding-box回归，第二个提交有bounding-box回归。对于这些提交，我们将SVM和bounding-box回归器训练集分别扩展为val+train1k和val。我们在val1+train1k上微调CNN来避免重新运行微调和特征计算。

4.5 消融实验

表4显示了不同训练数据量、微调和bounding-box回归效果的消融研究。第一个观察是，val2上的mAP与测试集上的mAP非常接近。这使我们有信心相信，val2上的mAP是测试集性能的良好指标。第一个结果20.9％，是在ILSVRC2012分类数据集上预训练的CNN（无微调），并允许访问val1中少量训练数据的R-CNN实现（val1中有一半的类别，每个类有15到55个样本）。扩展训练集到val1+trainN，使性能提高到24.1％，其中N = 500和N = 1000之间基本上没有差异。使用仅来自val1的样本微调CNN，可以使mAP稍微改善到26.5％，但是由于用于训练的正样本较少，可能会出现严重的过拟合。扩展微调的数据集到val1+train1k，相当于从训练集中为每个类增加了1000个正样本用于训练，帮助显著，将mAP提高至29.7％。检测框回归将结果提高到31.0％，这个结果与PASCAL中所观察到的收益相比相对较小。

【表4：ILSVRC2013上的数据使用选择、微调和边界回归的消融研究。】

4.6 与OverFeat的关系

R-CNN和OverFeat之间有一个有趣的关系：OverFeat可以看作（大致上）是R-CNN的一个特例。如果用一个规则正方形区域的多尺度金字塔取代选择性搜索区域提案，并将每个类别的bounding-box回归器改变为一个单一的bounding-box回归器，那么两个系统将是非常相似的（训练上有一些潜在的显著差异：CNN检测微调、使用SVM等）。值得注意的是，OverFeat比R-CNN具有显着的速度优势：根据[34]引用的图中显示每张图像2秒，这个速度大约比R-CNN快9倍。这种速度来自于OverFeat的滑动窗口（即区域提案）在图像级别没有缩放的事实，因此可以在重叠窗口之间轻松共享计算。共享是通过在任意大小的输入上以卷积方式运行整个网络来实现。加快R-CNN的速度应该有很多可行的办法，作为未来的工作。

5 语义分割

区域分类是一种标准的语义分割技术，这使我们可以轻松地将R-CNN应用于PASCAL VOC分割挑战。为了便于与当前领先的语义分割系统（将O2P称为“二阶池化”）[4]直接比较，我们在其开源框架内修改。O2P使用CPMC为每个图像生成150个区域提案，然后使用支持向量回归(SVR)来预测对于每个类别的每个区域的质量。他们的方法的高性能是由于CPMC区域的高质量和强大的多种特征类型（SIFT和LBP的丰富变体）的二阶池化。我们还注意到，Farabet等[16]最近使用CNN作为多尺度逐像素分类器在几个密集场景标记数据集（不包括PAS-CAL）上取得了良好的结果。

我们遵循[2,4]并扩展PASCAL分割训练集，以包含Hariharan等人提供的额外注释[22]。在VOC 2011验证集上，交叉验证我们的设计决策和超参数。最终测试结果仅评估一次。

用于分割的CNN特征。我们评估了在CPMC区域上计算特征的三种策略，所有这些策略的开始都是将矩形窗口周围区域缩放为227×227。第一个策略（full）忽略了该区域的形状，并直接在缩放后的区域上计算CNN特征，正如我们在做检测时缩放区域提案那样。然而，这些特征忽略了区域的非矩形形状。两个区域可能具有非常相似的bounding box，同时具有非常小的重叠。因此，第二个策略（fg）仅在区域的前景掩码上计算CNN特征。我们用图像均值替换背景，使得背景区域在减去图像均值后为零。第三个策略（full + fg）简单地连接full和fg特征。我们的实验验证了它们的互补性。

VOC 2011上的结果。表5展示了我们在VOC 2011验证集与O2P比较结果的总结（请参阅附录E以获得完整的每个类别的结果）。在每种特征计算策略中，fc6层总是优于fc7，以下讨论是指fc6的特征。fg策略稍微优于full，表明掩码区域的形状提供了更强的信号，与我们的直觉相匹配。然而，full + fg的平均准确度达到47.9％，比我们的fg的最佳结果高4.2％（也略胜于O2P），表明full特征提供了大量的上下文信息，甚至给定了fg特征。值得注意的是，在full +fg特征上使用一个单核CPU训练20个SVR需要花费一个小时，相比之下，在O2P特征训练需要10个多小时。

【表5：在VOC 2011验证集上的平均分割精度(%)。第一列是O2P的结果；2-7列是我们在ILSVRC 2012上使用CNN预训练的结果】

在表6中我们提供了VOC 2011测试集的结果，将我们的最佳表现方法fc6(full + fg)与两个强大的基线进行了比较。我们的方法在21个类别中有11个达到了最高的分割精度，最高的整体跨类别平均（但可能与任何合理的误差范围内的O2P结果有关）分割精度为47.9％。还可以通过微调来获得更好的性能。【表6：在VOC 2011测试集上的分割精度(%)。我们与两个强大的基线做对比：[2]中的“Regions and Parts”(R&P)方法和[4]中的二阶池化(O2P)方法。没有微调，我们的CNN实现了优异的分割性能，超过了R&P，与O2P差不多】

6 结论

近年来，目标检测性能停滞不前。性能最好的系统是将多个低级图像特征与来自物体检测器和场景分类器的高级语境相结合的复杂组合。本文提出了一种简单且可扩展的目标检测算法，相对于之前在PASCAL VOC 2012上的最佳结果，相对提高了30％。

我们通过两个关键的改进实现了这一效果。第一个是将大容量卷积神经网络CNN应用于自下而上的区域提案，以便定位和分割目标。第二个是在有标记的训练数据很少的情况下训练大型CNN的方法。我们发现，通过对具有丰富数据的辅助任务(图像分类)进行有监督的预训练，然后对数据稀缺的目标任务（检测）进行微调，是非常有效的。我们猜测，“有监督的预训练/特定领域的微调”的方法对于各种数据缺乏的视觉问题都将是非常有效的。

我们通过使用计算机视觉中的经典工具与深度学习（自下而上的区域提案和卷积神经网络）的组合达到了很好的效果。区域提案和卷积神经网络不是科学研究的对立面，而是自然的、不可避免的合作伙伴。

致谢：该研究部分由DARPA Mind’s Eye与 MSEE项目支持，NSF授予了IIS-0905647，IIS-1134072和IIS-1212798，以及丰田支持的MURI N000014-10-1-0933。本研究中使用的GPU由NVIDIA公司慷慨捐赠。

附录

A 目标区域提案转换

本文中使用的卷积神经网络需要227×227像素的固定大小输入。为了检测，我们认为目标提案是任意矩形的图像。我们评估了将目标提案转换为有效的CNN输入的两种方法。

第一个方法（“最符合上下文”）将目标提案扩充为正方形并缩放到所需大小，如图7(B)列所示。这种方法还有一种变体（“没有上下文的最紧密的方框”），排除围绕原始目标提案的图像内容，如图7(C)列所示。第二种方法（“缩放wrap”）是将目标提案不保留横纵比的情况下缩放到所需大小，如图7(D)列所示。

【图7：不同的对象提案转换。（A）最初的目标提案在其实际规模相对于转换后的CNN输入；（B）最符合上下文；（C）没有上下文的最紧密的方框；（D）缩放。在每列和示例提案中，顶部的行有p=0像素的上下文填充，底部的行有p = 16像素的上下文填充】

对于这些转换中的每一个，我们还考虑包含原始目标提案四周的附加图像内容。内容填充的量(p)被定义为在缩放后图像中，原始目标提案周围的边界大小。图7显示了每个示例的顶行中p=0像素，底行中p=16像素。在所有方法中，如果矩形框超出图像边缘，超出的部分将被填充为图像均值（然后在将图像输入到CNN之前减去图像均值）。一组实验表明，采用上下文填充（p=16像素）的缩放可以明显提高mAP（提高3-5个点）。显然还有更多其它可行的方案，包括使用复制而不是平均填充。对这些备选方案的详尽评估将作为未来的工作。

B 正负样本和softmax

有两个设计选择值得进一步讨论。第一个是：为什么在微调CNN和训练目标检测SVM时定义的正负样本不同？首先简要回顾下正负样本的定义，对于微调，我们将每个目标提案映射到与它具有最大IoU重叠（如果有的话）的检测框真值上，如果其IoU>0.5，将其标记为对应类别的正样本。剩下的提案都标记为“背景”（即所有类的负样本）。对于训练SVM，相比之下，我们只采用检测框真值作为各自类别的正样本。与某一类别所有的正样本的IoU<0.3的目标提案将被标记为该类别的负样本。其它（IoU重叠超过0.3，但不是检测框真值）的提案被忽略。

从历史上说，我们得出这些定义是因为我们一开始通过由ImageNet预训练的CNN计算出的特征训练SVM，因此微调在这个时间点不是一个需要考虑的因素。在这种情况下，我们发现，在我们评估的选项集合（包括我们现在用于微调的设置）中，我们当前使用的训练SVM的特定标签定义的设置是最佳的。当我们开始使用微调时，我们最初使用与我们用于SVM训练的正负样本的定义相同的正负样本定义。但是，我们发现结果比使用我们当前定义的正负样本获得的结果差得多。

我们的假设是，如何定义正负样本的差异对训练结果影响不大，结果的差异主要是由微调数据有限这一事实引起的。我们目前的方案引入了许多“抖动”的样本（这些提案与检测框真值的重叠在0.5和1之间，但并不是检测框真值），这将正样本的数量增加了大约30倍。我们推测，需要使用如此大量的样本以避免在微调整个网络时的过拟合。然而，我们还注意到，使用这些抖动的例子可能不是最佳的，因为网络没有被微调以进行精确的定位。

这导致了第二个问题：为什么微调之后，训练SVM呢？简单地将最后一层微调网络（21路Softmax回归分类器）作为目标检测器将变得更加简洁。我们尝试了这一点，发现在VOC 2007上的表现，mAP从54.2％下降到了50.9％。这种性能下降可能来自几个因素的组合，包括微调中使用的正样本的定义不强调精确定位，并且softmax分类器是在随机抽样的负样本上训练的，而不是用于训练SVM的“更严格的负样本”子集。

这个结果表明，微调之后可以获得接近SVM水平的性能，而无需训练SVM。我们推测，通过一些额外的调整来微调可以达到更接近的水平。如果是这样，这样可以简化和加速R-CNN训练，而不会在检测性能方面有任何损失。

C Bounding-box回归

我们使用一个简单的bounding-box回归来提高定位性能。在使用类特定检测SVM对每个选择性搜索提案进行评分之后，我们使用类别特定的bounding-box回归器预测新的bounding box。这与在可变部件模型中使用的bounding-box相似[17]。这两种方法之间的主要区别在于，我们使用CNN计算特征回归，而不是在推测的DPM部件位置上计算几何特征。

我们的训练算法的输入是一组N个训练对{(Pi,Gi)}i=1,…,N，其中Pi=(Pix,Piy,Piw,Pih)指定提案Pi的边界框中心的像素坐标以及宽度和高度（以像素为单位）。注意，除非需要，否则下文中我们不再写出上标i。每个检测框真值G以相同的方式指定：G=(Gx,Gy,Gw,Gh)。我们的目标是学习将提案框P映射到检测框真值G的转换。

我们依据四个函数dx(P)，dy(P)，dw(P)和dh(P)参数化这个转换。前两个指定P的边界框中心的尺度不变转换，后两个指定P的边界框宽度和高度的对数空间转换。在学习了这些函数后，我们可以通过应用这个转换将输入提案P转换成预测检测框真值。

每个函数d⋆(P)（*表示x,y,w,h中的一个）都建模为提案P的pool5特征，记为ϕ5(P)，（在图像数据上的依赖隐含的假定）的线性函数。即d⋆(P)=wT⋆ϕ5(P)，其中w⋆表示可学习的模型参数的一个向量，我们通过优化正则化最小二乘法的目标（ridge回归）来学习w⋆：

训练对(P,G)的回归目标t⋆被定义为：

作为标准正则化最小二乘法问题，可以有效的找到封闭解。

我们在实现边界回归的过程中发现了两个微妙的问题。第一个问题是正则化是重要的：基于验证集，我们设置λ=1000。第二个问题是，选择使用哪些训练对(P,G)时必须小心。直观地说，如果P远离所有的检测框真值，那么将P转换为检测框真值G的任务就没有意义。使用像P这样的例子会导致一个无望的学习问题。因此，只有当提案P至少在一个检测框真值附近时，我们才执行学习任务。“附近”即，将P分配给具有最大IoU重叠的检测框真值G（在重叠多于一个的情况下），并且仅当重叠大于阈值（基于验证集，我们使用的阈值为0.6）。所有未分配的提案都被丢弃。我们为每个目标类别执行一次，以便学习一组特定类别的bounding-box回归器。

在测试时，我们对每个提案进行评分，并预测其新的检测框仅一次。原则上，我们可以迭代这个过程（即对新预测的bounding-box重新打分，然后从它预测一个新的bounding-box，等等）。但是，我们发现迭代不会提高结果。

D 额外的特征可视化

图12中显示了额外20个pool5单元的可视化。对于每个单元，我们展示在VOC 2007测试的大约1000万个区域中的激活最大的24个区域提案。

在6 x 6 x 256维的pool5特征图谱中我们通过(y,x,channel)位置来标记每一个单元。在每个通道channel内，CNN使用相同的函数计算不同的输入，(y,x)位置仅改变感受视野。

【图12：我们展示在VOC 2007测试的大约1000万个区域中的激活最大的24个区域提案，分别最强烈地激活了20个单元。每一组以单元在6 x 6 x 256维的pool5特征图中的(y,x,channel)位置标记。每个图像区域都用白色叠加绘制了单元感受视野。激活值（我们通过除以通道中的所有单位的最大激活值进行归一化）被显示在感受野的左上角。可通过放大来看清楚。】

E 每个类别的分割结果

表7除了显示O2P方法[4]外，还给出了我们的六种分割方法在VOC 2011 val上每个类别的分割精度。这些结果显示了在20个PASCAL类中哪种方法最强，包括背景类。

【表7：VOC 2011验证集上每个类别的分割精度(%)】

F 跨数据集冗余分析

对辅助数据集进行训练时，一个问题是它与测试集之间可能存在冗余。由于目标检测和整图像分类的任务大不相同，使得这种交叉冗余没那么令人担忧，我们仍然进行了调查，以量化PASCAL测试集被包含在ILSVRC 2012训练和验证集中的程度。对于有兴趣使用ILSVRC 2012作为PASCAL图像分类任务的训练数据的研究人员，我们的研究结果可能是有用的。

我们对重复（和近似重复）的图像进行了两次检查。第一个测试是基于Flickr图像ID的完全匹配，它们包含在VOC 2007测试集的标注中（在后续的PASCAL测试集中这些ID有意保密）。所有PASCAL图像，以及大约一半的ILSVRC，都是从flickr.com收集的。在4952中有31个匹配（0.63％）。

第二个检查使用GIST42描述符匹配，如43所示，在大型（> 100万）图像集合中的近似重复图像检测中具有出色的性能。按照43所述，我们计算了所有ILSVRC 2012 trainval和PASCAL 2007测试集的图像的缩放到32×3232×32像素版本的GIST描述符。

GIST描述符的欧几里德距离最近邻匹配找出了38个近似重复的图像（包括由flickr ID匹配发现的所有31个）。这些匹配在JPEG压缩级别和分辨率方面略有不同，裁剪程度也较小。这些研究结果表明，冗余很小，小于1％。对于VOC 2012，因为flickr ID不可用，我们仅使用GIST匹配方法。基于GIST匹配，VOC 2012测试图像中有1.5％与ILSVRC 2012匹配。 VOC 2012略高可能是由于两个数据集在时间上比VOC 2007和ILSVRC 2012更接近。

G文档的更新日志

本文档跟踪R-CNN的进展。为了帮助读者理解它是如何随着时间的推移而变化的，这里有一个简短的变更日志来描述这些修订。

v1 初始版本.

v2 CVPR 2014修订版。包括检测性能的实质性改进（1）从一个更高的学习率开始微调（0.001而不是0.0001）；（2）在准备CNN输入时使用上下文填充；（3）bounding-box回归修复定位错误。

v3 在ILSVRC2013检测数据集上的结果并且与OverFeatb比较被整合成几个部分。

v4 oftmax和SVM的结果在附录B中包含一个错误，已经被修复了。我们感谢Sergio Guadarrama帮助确定这个问题。

v5 把使用Simonyan和Zisserman[43]的新的16层网络架构的结果添加到3.3节和表3。

Lovefeifei20200119

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
R-CNN论文翻译

Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5)丰富的特征层次结构，用于精确的目标检测和语义分割技术报告（v5）摘要在典型的PASCAL VOC数据集上测量的对象检测性能在过去几年中已经稳定下来。最好的方法是复杂的系统，通常将...
复制链接

扫一扫

专栏目录