ResNet（Deep Residual Learning for Image Recognition）论文翻译

最新推荐文章于 2022-12-14 21:12:58 发布

gz7seven

最新推荐文章于 2022-12-14 21:12:58 发布

阅读量1k

点赞数 1

分类专栏：深度学习文章标签：深度学习神经网络计算机视觉

本文链接：https://blog.csdn.net/guzhao9901/article/details/105946263

版权

深度学习专栏收录该内容

43 篇文章 68 订阅

订阅专栏

ResNet（Deep Residual Learning for Image Recognition）论文翻译

摘要

更深的神经网络更难训练。我们提出了一种残差学习框架来减轻网络训练，这些网络比以前使用的网络更深。我们明确地将层变为学习关于层输入的残差函数，而不是学习未参考的函数。我们提供了全面的经验证据说明这些残差网络很容易优化，并可以显著增加深度来提高准确性。在ImageNet数据集上我们评估了深度高达152层的残差网络——比VGG[40]深8倍但仍具有较低的复杂度。这些残差网络的集合在ImageNet测试集上取得了3.57%的错误率。这个结果在ILSVRC 2015分类任务上赢得了第一名。我们也在CIFAR-10上分析了100层和1000层的残差网络。

对于许多视觉识别任务而言，表示的深度是至关重要的。仅由于我们的非常深度表示，我们在COCO对象检测数据集上获得了28％的相对改进。深度残差网络是我们提交ILSVRC＆COCO 2015竞赛1的基础，在该竞赛中，我们还获得了ImageNet检测，ImageNet定位，COCO检测和COCO分割等任务的第一名。

1 引言

深度卷积神经网络[22，21]导致了图像分类的一系列突破[21，50，40]。深度网络自然地以端到端的多层方式集成了低/中/高级特征[50]和分类器，并且特征的“级别”可以通过堆叠层的数量（深度）来丰富。最新证据[41，44]揭示了网络深度至关重要，在具有挑战性的ImageNet数据集[36]上的领先结果[41，44，13，16]都利用了“非常深”的模型[41]，深度在16[41]到30[16]之间。许多其他非平凡的视觉识别任务[8、12、7、32、27]也从非常深入的模型中受益匪浅。

在深度重要性的驱动下，一个问题出现了：学习更好的网络是否想叠加更多的层那么简单吗?回答这个问题的一个障碍是众所周知的渐变消失/爆炸问题[1,9]，它从一开始就阻碍了收敛。然而，这一问题已经在很大程度上通过正则化初始化[23,9,37,13]和中间正则化层[16]得到了解决，这些层使得具有数十层的网络能够通过具有反向传播[22]的随机梯度下降(SGD)开始收敛。

当更深层次的网络能够开始收敛时，一个退化的问题就暴露出来了：随着网络深度的增加，准确率达到饱和(这可能并不奇怪)，然后迅速退化。出乎意料的是，这种退化并不是由过度拟合造成的，并且在一个合适的深度模型上增加更多的层会导致更高的训练误差，正如文献[11,42]所报道的，我们的实验也完全验证了这一点。图1给出了一个典型的例子。

在这里插入图片描述

图1.在带有20层和56层“普通”网络的CIFAR-10上的训练错误（左）和测试错误（右）。较深的网络具有较高的训练误差和测试误差。ImageNet上的类似现象如图4所示。

训练准确性的退化表明并非所有系统都同样容易优化。让我们考虑一个较浅的架构及其更深层次的对象，为其添加更多的层。通过构建更深层的模型可以找到解决方案：添加的层是恒等映射，其他层是从学习的浅层模型中复制的。此构造解决方案的存在表明，较深的模型不应该产生比其对应的较浅模型更高的训练误差。但实验表明，我们现有的解决方案无法找到比构造的解决方案更好或更好的解决方案(或在可行时间内无法找到)。

在本文中，我们通过引入深度残差学习框架来解决退化问题。我们不希望每几个堆叠的层直接拟合一个期望的底层映射，而是明确地让这些层拟合一个残差映射。形式上，所期望的底层映射表示为H (x),我们让堆叠非线性层拟合另一个映射，即F (x): = H (x)−x。原始映射将重写为F (x) + x。我们假设残差映射比原始的未参考的映射要容易优化。在极端情况下，如果一个恒等映射是最优的，那么将残差置为零要比通过一堆非线性层来拟合一个恒等映射容易得多。

公式F（x）+ x可以通过具有“shortcuts”的前馈神经网络来实现（图2）。shortcuts连接[2、34、49]是跳过一层或多层的连接。在我们的例子中，shortcuts连接仅执行恒等映射，并将其输出添加到堆叠层的输出中（图2）。恒等shortcuts连接既不会增加额外的参数，也不会增加计算复杂度。整个网络仍然可以通过SGD反向传播进行端到端训练，并且可以使用通用库（例如Caffe [19]）轻松实现，而无需修改求解器。

在这里插入图片描述

图2.残余学习：构建块。

我们在ImageNet [36]上进行了综合实验，以显示退化问题并评估我们的方法。我们证明：1）我们极深的残差网络易于优化，但是当深度增加时，对应的“普通”网络（简单地堆叠层）显示出更高的训练误差； 2）我们的深层残差网络可以通过大大增加深度来轻松享受准确性的提高，所产生的结果比以前的网络要好得多。

在CIFAR-10集上也显示了类似的现象[20]，这表明优化困难和我们方法的效果不仅类似于特定数据集。我们在此数据集上成功地训练了100多个层的模型，并探索了1000多个层的模型。

在ImageNet分类数据集[36]上，我们通过极深的残差网获得了出色的结果。我们的152层残差网络是ImageNet上提出的最深的网络，同时其复杂度仍低于VGG网络[41]。我们的模型集合在ImageNet测试集上有`3.57% top-5的错误率，并在ILSVRC 2015分类竞赛中获得第一名。极深的表示在其他识别任务上也具有出色的泛化性能，使我们在ILSVRC和COCO 2015竞赛中进一步赢得了第一名：ImageNet检测，ImageNet定位，COCO检测和COCO分割。有力的证据表明，残差学习原理是通用的，我们希望它适用于其他视觉和非视觉问题。

2 相关工作

残差表示 在图像识别中，VLAD[18]是对字典的残差向量进行编码的表示形式，Fisher向量[30]可以表示为VLAD的概率版本[18]。它们都是图像检索和分类中强大的浅层表示[4,48]。在矢量量化方面，对残差矢量[17]进行编码比对原始矢量进行编码更有效。

在低级视觉和计算机图形学中，为了求解偏微分方程（PDE），广泛使用的Multigrid方法[3]将系统重新构建为多个尺度的子问题，其中每个子问题负责较粗尺度和较细尺度之间的残差解。Multigrid的替代方法是分层基础预处理[45，46]，它依赖于表示两个尺度之间残差矢量的变量。已经显示[3，45，46]，这些求解器的收敛速度比不知道解的残差性质的标准求解器快得多。这些方法表明，良好的重构或预处理可以简化优化过程。

Shortcuts连接 Shortcuts连接[2、34、49]的实践和理论已经研究了很长时间。训练多层感知器（MLP）的早期实践是添加一个线性层来连接网络输入和输出[34，49]。在[44，24]中，一些中间层直接连接到辅助分类器，以解决消失/爆炸梯度。 [39，38，31，47]的论文提出了通过shortcuts连接实现层间响应，梯度和传播误差的方法。在[44]中，一个“inception”层由一个shortcuts分支和一些更深的分支组成。

与我们同时进行的工作，“highway networks”[42,43]提供了带有门控功能[15]的shortcuts连接。这些门是依赖于数据的，并且有参数，这与我们的恒等shortcuts是无参数的形成了对比。当封闭的shortcuts被关闭(接近于零)时，highway networks（高速网络）中的各层代表了非残差函数。相反，我们的公式总是学习残差函数；我们的恒等shortcuts永远不会关闭，所有的信息总是通过，还有额外的残差函数需要学习。此外，highway networks深度的极大增加(例如，超过100层)并没有表现出精度的提高。

3 深度残差学习

3.1 残差学习

让我们将H（x）视为一些堆叠层（不一定是整个网络）要拟合的底层映射，其中x表示这些层中第一层的输入。如果假设多个非线性层可以渐近地逼近复杂函数，则等效于假设它们可以渐近地近似残差函数，即H（x）-x（假设输入和输出的维数相同）。因此，我们没有让堆叠的层近似为H（x），而是明确地这些层近似为残差函数F（x）：= H（x）-x。因此，原始函数变为F（x）+ x。尽管两种形式都应能够渐近地逼近所需的函数（如假设），但学习的难易程度可能有所不同。

这种重构是由与退化问题有关的反直觉现象引起的（图1，左）。正如我们在引言中讨论的那样，如果可以将添加的层构造为恒等映射，则较深的模型应具有的训练误差不大于其较浅的模型的训练误差。退化问题表明，求解器可能难以通过多个非线性层来逼近恒等映射。在残差学习中，如果恒等映射是最佳的，则求解器可以简单地将多个非线性层的权重逼近零，以逼近恒等映射。

在实际情况中，恒等映射不太可能是最优的，但是我们的重构可能有助于对问题进行预处理。如果最优函数更接近于恒等映射而不是零映射，那么求解器就更容易找到与恒等映射相关的扰动，而不是将该函数作为新的函数来学习。实验表明(图7)，学习后的残差函数一般响应较小，这说明恒等映射提供了合理的预处理。

3.2 利用shortcut进行恒等映射

我们对每几个堆叠的层采用残差学习。构建块如图2所示。在本文中，我们正式地将构建块定义为：
$\mathbf{y}=\mathcal{F}\left(\mathbf{x},\left\{W_{i}\right\}\right)+\mathbf{x}(1)$
这里的x和y是所考虑的层的输入和输出向量。函数 $\mathcal{F}\left(\mathbf{x},\left\{W_{i}\right\}\right)$ 表示要学习的残差映射。对于图2中具有两层的示例， $\mathcal{F}=W_{2} \sigma\left(W_{1} \mathbf{x}\right)$ ，其中σ表示ReLU [29]，并且为了简化符号省略了偏置项。 F + x操作通过shortcuts连接和各个元素加法执行。加法后我们采用第二种非线性（即σ（y），见图2）。

式（1）中的shortcuts连接既没有引入额外的参数，也没有引入计算复杂性。这不仅在实践中具有吸引力，而且在我们比较普通网络和残差网络时也很重要。我们可以公平地比较同时具有相同数量的参数，深度，宽度和计算成本（除了可以忽略的逐元素加法）的普通/残差网络。

在式（1）中，x和F的维数必须相等。如果不是这样(例如，当改变输入/输出通道时)，我们可以通过shortcuts连接执行一个线性投影Ws来匹配维度：
$\mathbf{y}=\mathcal{F}\left(\mathbf{x},\left\{W_{i}\right\}\right)+W_{s} \mathbf{x}(2)$
我们也可以在等式（1）中使用方阵Ws。但是，我们将通过实验证明，恒等映射足以解决退化问题，并且是合算的，因此Ws只在匹配维度时使用。

残差函数F的形式是灵活可变的。本文中的实验涉及一个具有两层或三层的函数F（图5），而更多的层也是可能的。但是，如果F仅具有一层，则等式（1）类似于线性层： $\mathbf{y}=W_{1} \mathbf{x}+\mathbf{x}$ ，对此我们没有观察到优势。

我们还注意到，尽管为简化起见，上述符号是关于全连接层的，但它们也适用于卷积层。函数 $\mathcal{F}\left(\mathbf{x},\left\{W_{i}\right\}\right)$ 可以表示多个卷积层。对两个特征图逐个通道执行逐元素加法。

3.3 网络结构

我们已经测试了各种普通/残差网络，并观察到了一致的现象。为了提供讨论的实例，我们描述了ImageNet的两个模型，如下所示。

普通网络 我们普通网络的基准（图3，中间）主要受到VGG网络原理的启发[41]（图3，左图）。卷积层大多具有3×3滤波器，并遵循两个简单的设计规则：（i）对于相同的输出特征图大小，层具有相同数量的过滤器；（ii）如果特征图的大小减半，则过滤器的数量将增加一倍，以保持每层的时间复杂度。我们直接通过步长为2的卷积层直接执行下采样。网络以全局平均池化层和带有softmax的1000维全连接层结束。在图3（中间），加权层的总数为34。

值得注意的是，我们的模型比VGG网络[41]具有更少的过滤器和更低的复杂度（图3，左）。我们的34层基准具有36亿个FLOP（乘法加法），仅占VGG-19（196亿个FLOP）的18％。
在这里插入图片描述

图3. ImageNet的示例网络架构。左：作为参考的VGG-19模型[41]（196亿个FLOP）。中：具有34个参数层（36亿个FLOP）的普通网络。右：一个具有34个参数层的残差网络（36亿个FLOP）。虚线shortcuts会增加维度。表1显示了更多详细信息和其他变体。

残差网络 在上面的普通网络的基础上，我们插入shortcuts连接（图3，右），将网络变成其对应的残差版本。当输入和输出的维度相同时，可以直接使用恒等shortcuts连接（等式（1））（图3中的实线shortcuts连接）。当维度增加时（图3中的虚线shortcuts连接），我们考虑两个选项：（A）shortcuts仍然执行恒等映射，额外增加零输入来增加维度。此选项不引入任何额外的参数。（B）等式（2）中的投影shortcuts用于匹配维度（按1×1卷积完成）。对于这两个选项，当shortcuts遍历两种尺寸的特征图时，步长为2。

3.4 实现

我们对ImageNet的实现遵循了[21,41]中的实践。调整图像大小，其较短的边在[256,480]之间进行随机采样，用于尺度增强[40]。224×224裁剪是从图像或其水平翻转中随机采样，并逐像素减去均值[21]。使用[21]中的标准颜色增强。我们在每次卷积之后，在激活之前，采用批量归一化(BN)[16]。我们按照[13]的方法初始化权值，从零开始训练所有的普通/残差网络。我们使用批大小为256的SGD。学习速率从0.1开始，当误差趋于稳定时除以10，对模型进行多达60×10⁴次迭代的训练。我们使用重量衰减为0.0001，动量为0.9。我们不使用dropout[14]，遵循[16]的实践。

在试验中，为了进行比较研究，我们采用了标准的10-crop试验[21]。为了得到最好的结果，我们采用了[41,13]中的全卷积形式，并在多个尺度下对分数进行平均(图像归一化，短边位于{224,256,384,480,640}中)。

4 实验

4.1 ImageNet 分类

我们在包含1000个类别的ImageNet 2012分类数据集[36]上评估了我们的方法。在128万张训练图像上对模型进行了训练，并在50k张验证图像上进行了评估。我们还将在测试服务器报告的10万张测试图像上获得最终结果。我们评估了top-1和top-5的错误率。

普通网络 我们首先评估18层和34层的普通网络。34层普通网络如图3(中间)所示。18层的普通网络也是类似的形式。有关详细的体系结构，请参见表1。

表2的结果表明，更深的34层普通网络比较浅的18层普通网络具有更高的验证误差。为了揭示原因，在图4(左)中，我们比较了他们在训练过程中的训练/验证错误。在整个训练过程中，我们观察到34层普通网络的退化问题，尽管18层普通网络的解空间是34层普通网络的解空间的子空间，但其训练误差在整个训练过程中都比较大。
在这里插入图片描述

表1. ImageNet的体系结构。括号中显示了构建块（另请参见图5），其中堆叠了许多块。下采样由conv3 1， conv4 1和conv5 1执行，步长为2
在这里插入图片描述

图4. ImageNet训练。细曲线表示训练误差，粗曲线表示中心裁剪的验证误差。左：18和34层的普通网络。右：18和34层的ResNet。在该图中，残差网络与普通网络相比没有额外的参数
在这里插入图片描述

表2. ImageNet验证中的前1个误差（％，进行了十次裁剪测试）。 ResNet与普通网络相比没有额外的参数。图4显示了训练程序

我们认为这种优化困难不太可能是由消失的梯度造成的。这些普通网络使用BN[16]进行训练，以确保前向传播的信号具有非零的方差。我们还验证了反向传播的梯度具有BN的正常标准。所以向前和向后的信号都不会消失。事实上，34层的普通网络仍能达到具有竞争力的准确率(表3)，说明求解器在一定程度上是可行的。我们推测深普通网络可能具有指数级的低收敛速度，这影响了训练误差的降低。这种优化困难的原因将在以后进行研究。

残差网络 接下来，我们评估18层和34层残差网络(ResNets)。基本架构与上面的普通网相同，只是在每一对3×3的滤波器上增加了一个shortcuts，如图3(右)所示。在第一个比较中(表2和图4右侧)，我们所有shortcuts使用恒等映射，使用零填充以增加维度(选项A)，因此与普通的对应项相比，它们没有额外的参数。

我们从表2和图4中得到了三个主要的观察结果。首先，随着残差学习，34层的ResNet优于18层的ResNet(提高了2.8%)。更重要的是，34层的ResNet显示出相当低的训练误差，并且可推广到验证数据。这表明在这种情况下，退化问题得到了很好的解决，我们可以通过增加深度来提高精度。

其次，与普通版网络相比，34层的ResNet将top-1的误差减少了3.5%(表2)，这是由于成功地减少了训练误差(图4)。这一比较验证了残差学习在极深系统上的有效性。

最后，我们还注意到，18层的普通/残差网格相对来说是准确的(表2)，但是18层的ResNet收敛得更快(图4右/左)。当网“不是太深”(这里是18层)时，当前的SGD求解器仍然能够找到普通网络的良好解决方案。在这种情况下，ResNet通过在早期提供更快的收敛速度来简化优化。

恒等shortcuts与投影shortcuts 我们已经证明，无参数的恒等shortcuts有助于训练。接下来，我们研究投影shortcuts（等式（2））。在表3中，我们比较了三个选项：（A）零填充shortcuts用于增加维度，并且所有shortcuts都是无参数的（与表2和图4右相同）；（B）投影shortcuts用于增加维度，其他shortcuts是恒等的。（C）所有shortcut都是投影。

表3显示，这三个选项都比普通网络好得多。B比A稍微好一点，我们认为这是因为A的零填充维度确实没有残差学习。C比B稍微好一点，我们把这归因于许多(13个)shortcuts引入的额外参数。但是，A/B/C之间的细微差异表明，shortcuts对于解决退化问题并不是必需的。因此，在本文的其余部分中，我们不使用选项C来降低内存/时间复杂度和模型大小。恒等shortcuts对于不增加下面介绍的瓶颈结构的复杂性尤其重要。

更深的瓶颈结构 接下来我们描述ImageNet中我们使用的更深的网络网络。由于关注我们能承受的训练时间，我们将构建块修改为瓶颈设计。对于每个残差函数F，我们使用3层堆叠而不是2层（图5）。三层是1×1，3×3和1×1卷积，其中1×1层负责减小然后增加（恢复）维度，使3×3层成为具有较小输入/输出维度的瓶颈。图5展示了一个示例，两个设计具有相似的时间复杂度。

无参数恒等快捷连接对于瓶颈架构尤为重要。如果图5（右）中的恒等快捷连接被投影替换，则可以显示出时间复杂度和模型大小加倍，因为快捷连接是连接到两个高维端。因此，恒等快捷连接可以为瓶颈设计得到更有效的模型。

50层ResNet 我们用3层瓶颈块替换34层网络中的每一个2层块，得到了一个50层ResNet（表1）。我们使用选项B来增加维度。该模型有38亿FLOP。

101层和152层ResNet 我们通过使用更多的3层瓶颈块来构建101层和152层ResNets（表1）。值得注意的是，尽管深度显著增加，但152层ResNet（113亿FLOP）仍然比VGG-16/19网络（153/196亿FLOP）具有更低的复杂度。

50/101/152层ResNet比34层ResNet的准确性要高得多（表3和4）。我们没有观察到退化问题，因此可以从显著增加的深度中获得显著的准确性收益。所有评估指标都能证明深度的收益（表3和表4）。

与最先进的方法比较 在表4中，我们与以前最好的单一模型结果进行比较。我们基准的34层ResNet已经取得了非常有竞争力的准确性。我们的152层ResNet具有单模型4.49％的top-5错误率。这种单一模型的结果胜过以前的所有综合结果（表5）。我们结合了六种不同深度的模型，形成一个集合（在提交时仅有两个152层）。这在测试集上得到了3.5％的top-5错误率（表5）。这次提交在2015年ILSVRC中荣获了第一名。
在这里插入图片描述

表3 ImageNet验证集错误率（%，10个裁剪图像测试）。VGG16是基于我们的测试结果的。ResNet-50/101/152的选择B仅使用投影增加维度。
在这里插入图片描述

表4 单一模型在ImageNet验证集上的错误率（%）(除了†是测试集上报告的错误率)
在这里插入图片描述

表5 模型综合的错误率(%) top-5错误率是ImageNet测试集上的并由测试服务器报告的
在这里插入图片描述

图5 ImageNet的深度残差函数F 左：ResNet-34的构建块（在56×56的特征图上），如图3 右：ResNet-50/101/152的“bottleneck”构建块

4.2 CIFAR-10和分析

我们对CIFAR-10数据集[20]进行了更多的研究，其中包括10个类别中的5万张训练图像和1万张测试图像。我们介绍了在训练集上进行训练和在测试集上进行评估的实验。我们的焦点在于极深网络的行为，但不是推动最先进的结果，所以我们有意使用如下的简单架构。

简单/残差架构遵循图3（中/右）的形式。网络输入是32×32的图像，每个像素减去均值。第一层是3×3卷积。然后我们在大小为{32,16,8}的特征图上分别使用了带有3×3卷积的6n个堆叠层，每个特征图大小使用2n层。滤波器数量分别为{16,32,64}。下采样由步长为2的卷积进行。网络以全局平均池化，一个10维全连接层和softmax作为结束。共有6n+2个堆叠的加权层。下表总结了这个架构：
在这里插入图片描述

当使用shortcuts连接时，它们连接到成对的3×3卷积层上（共3n个快捷连接）。在这个数据集上，我们在所有案例中都使用恒等shortcuts连接（即选项A），因此我们的残差模型与对应的简单模型具有完全相同的深度，宽度和参数数量。

我们使用的权重衰减为0.0001和动量为0.9，并采用[12]和BN[16]中的权重初始化，但没有使用丢弃。这些模型在两个GPU上进行训练，批处理大小为128。我们开始使用的学习率为0.1，在32k次和48k次迭代后学习率除以10，并在64k次迭代后终止训练，这是由45k/5k的训练/验证集分割决定的。我们按照[24]中的简单数据增强进行训练：每边填充4个像素，并从填充图像或其水平翻转图像中随机采样32×32的裁剪图像。对于测试，我们只评估原始32×32图像的单一视图。

我们比较了n=3,5,7,9，得到了20层，32层，44层和56层的网络。图6（左）显示了简单网络的行为。深度简单网络经历了深度增加，随着深度增加表现出了更高的训练误差。这种现象类似于ImageNet中（图4，左）和MNIST中（请看[41]）的现象，表明这种优化困难是一个基本的问题。
在这里插入图片描述

图6 在CIFAR-10上训练。虚线表示训练误差，粗线表示测试误差。左：简单网络。简单的110层网络错误率超过60%没有展示。中间：ResNet。右：110层ResNet和1202层ResNet。

图6（中）显示了ResNet的行为。与ImageNet的情况类似（图4，右），我们的ResNet设法克服优化困难并随着深度的增加展示了准确性收益。

我们进一步探索了n=18得到了110层的ResNet。在这种情况下，我们发现0.1的初始学习率对于收敛来说太大了。因此我们使用0.01的学习率开始训练，直到训练误差低于80%（大约400次迭代），然后学习率变回到0.1并继续训练。学习过程的剩余部分与前面做的一样。这个110层网络收敛的很好（图6，中）。它与其它的深且窄的网络例如FitNet[34]和Highway41相比有更少的参数，但结果仍在目前最好的结果之间（6.43%，表6）。
在这里插入图片描述

表6 在CIFAR-10测试集上的分类误差。所有的方法都使用了数据增强。对于ResNet-110，像论文[42]中那样，我们运行了5次并展示了“最好的(mean±std)”。

层响应分析。图7显示了层响应的标准偏差（std）。这些响应每个3×3层的输出，在BN之后和其他非线性（ReLU/加法）之前。对于ResNets，该分析揭示了残差函数的响应强度。图7显示ResNet的响应比其对应的简单网络的响应更小。这些结果支持了我们的基本动机（第3.1节），残差函数通常具有比非残差函数更接近零。我们还注意到，更深的ResNet具有较小的响应幅度，如图7中ResNet-20，56和110之间的比较所证明的。当层数更多时，单层ResNet趋向于更少地修改信号。
在这里插入图片描述

图7 层响应在CIFAR-10上的标准差（std）。这些响应是每个3×3层的输出，在BN之后非线性之前。上面：以原始顺序显示层。下面：响应按降序排列。

探索超过1000层。我们探索超过1000层的过深的模型。我们设置n=200，得到了1202层的网络，其训练如上所述。我们的方法显示没有优化困难，这个10³层网络能够实现训练误差<0.1％（图6，右图）。其测试误差仍然很好（7.93％，表6）。

但是，这种极深的模型仍然存在着开放的问题。这个1202层网络的测试结果比我们的110层网络的测试结果更差，虽然两者都具有类似的训练误差。我们认为这是因为过拟合。对于这种小型数据集，1202层网络可能是不必要的大（19.4M）。在这个数据集应用强大的正则化，如maxout[9]或者dropout[13]来获得最佳结果（[9,25,24,34]）。在本文中，我们不使用maxout/dropout，只是简单地通过设计深且窄的架构简单地进行正则化，而不会分散集中在优化难点上的注意力。但结合更强的正规化可能会改善结果，我们将来会研究。

4.3. 在PASCAL和MS COCO上的目标检测

我们的方法对其他识别任务有很好的泛化性能。表7和表8显示了PASCAL VOC 2007和2012[5]以及COCO[26]的目标检测基准结果。我们采用更快的R-CNN[32]作为检测方法。在这里，我们感兴趣的是用ResNet-101替换VGG-16[40]。使用这两种模式的检测实现（见附录）是一样的，所以收益只能归因于更好的网络。最显著的是，在有挑战性的COCO数据集中，COCO的标准度量指标（mAP@[.5，.95]）增长了6.0％，相对改善了28％。这种收益完全是由于学习表示。
在这里插入图片描述

表7 在PASCAL VOC 2007/2012测试集上使用基准Faster R-CNN的目标检测mAP(%)。更好的结果请看附录。
在这里插入图片描述
表8 在COCO验证集上使用基准Faster R-CNN的目标检测mAP(%)。更好的结果请看附录。
基于深度残差网络，我们在ILSVRC & COCO 2015竞赛的几个任务中获得了第一名，分别是：ImageNet检测，ImageNet定位，COCO检测，COCO分割。跟多细节请看附录。