Deep Residual Learning for Image Recognition

最新推荐文章于 2024-05-28 10:31:12 发布

铿锵的玫瑰

最新推荐文章于 2024-05-28 10:31:12 发布

阅读量234

点赞数

分类专栏：论文大全

本文链接：https://blog.csdn.net/LYKymy/article/details/97519010

版权

论文大全专栏收录该内容

162 篇文章 9 订阅

订阅专栏

Abstract

更深的神经网络更难训练。我们提出了一个残留的学习框架，以便于对比以前使用的更深的网络进行训练。我们参考层输入明确地将层重新表示为学习残差函数，而不是学习未引用的函数。我们提供全面的经验证据表明这些残留网络更容易优化，并且可以从显着增加的深度获得准确性。在ImageNet数据集上，我们评估的残差网络的最大值为152层，比VGG网络深[8]，但仍具有较低的复杂度。这些残留网络的集合在ImageNet测试集上实现了3.57％的误差。该结果在ILSVRC 2015分类任务中获得第一名。我们还提供了100和1000层的CIFAR-10分析。
表示的深度对于许多视觉识别任务而言至关重要。仅仅由于我们极其深刻的表示，我们在COCO对象检测数据集上获得了28％的相对改进。深度残留网是我们向ILSVRC和COCO 2015竞赛1提交的基础，我们还在ImageNet检测，ImageNet定位，COCO检测和COCO分割任务中获得了第一名。

Introduction

深度卷积神经网络为图像分类带来了一系列突破。深度网络自然地以端到端多层方式集成低/中/高级特征和分类器，并且可以通过堆叠层（深度）的数量来丰富特征的“级别”。最近的证据表明，网络深度至关重要，而具有挑战性的ImageNet数据集的主要结果都是利用“非常深”的模型，深度为16到30。
当更深的网络能够开始聚合时，一个退化问题已经暴露出来：随着网络深度的增加，精度会达到饱和（这可能是意料之中的），然后迅速退化。出乎意料的是，这种退化不是由于过度过滤造成的，并且向适当深的模型添加更多的层会导致更高的培训错误，如[11,42]中所述，并由我们的实验彻底验证。
训练精度的下降表明并非所有系统都同样容易优化。让我们考虑一个更浅的体系结构及其更深层的对应结构，它在上面添加了更多的层。对于更深层次的模型，存在构造的解决方案：添加的层是身份映射，并且从学习的浅层模型复制其他层。这种构造的解决方案的存在表明，更深的模型不应该产生比其较浅的对应物更高的训练误差。
在本文中，我们通过引入深度剩余学习框架来解决退化问题。我们明确地让这些层进行残差映射，而不是希望每个堆叠的层直接覆盖所需的底层映射。
Identity ShortCut连接既不增加额外参数也不增加计算复杂度。整个网络仍然可以由SGD通过反向传播进行端到端的训练，并且可以使用公共库轻松实现而无需修改求解器。

Related Work

在低级视觉和计算机图形学中，为了解决偏微分方程（PDEs），广泛使用的多重网格方法[3]将系统重新表述为多个尺度的子问题，其中每个子问题负责较粗糙和较粗糙之间的残差解规模。 Multigrid的替代方法是层次基础预处理，它依赖于表示两个尺度之间的残差向量的变量。已经表明这些求解器比不知道解决方案的残留性质的标准求解器收敛得快得多。这些方法表明良好的重构或预处理可以简化优化。
长期以来，人们一直在研究导致捷径连接的实践和理论。训练多层感知器（MLP）的早期实践是添加从网络输入连接到输出的线性层[34,49]。在[44,24]中，一些中间层直接连接到辅助分类器，用于解决消失/爆炸梯度。 [39,38,31,47]的论文提出了通过快捷连接实现的中心层响应，梯度和传播错误的方法。在[44]中，“初始”层由快捷分支和一些较深的分支组成。
与我们的工作同时，“高速公路网络”[42,43]提出了与门控功能的快捷连接[15]。与我们的无参数身份快捷方式相比，这些门是数据相关的并且具有参数。当门控快捷方式“关闭”（接近零）时，公路网络中的层表示非残余功能。相反，我们的表述总是学习剩余的功能; 我们的身份快捷方式永远不会关闭，所有信息都会通过，还需要学习额外的剩余功能。

Deep Residual Learning

这种重新表述的动机是关于降解问题的违反直觉的现象。正如我们在引言中讨论的，如果添加的层可以被构造为标识映射，那么一个更深的模型应该具有不大于其较浅的对应层的训练错误。退化问题表明，解算器在用多个非线性层逼近同一映射时可能有不同的概念。通过残差学习重构，如果单位映射是最优的，解算器可以简单地将多个非线性层的权值向零逼近单位映射。
在实际情况下，身份映射不太可能是最优的，但是我们的重新构造可能有助于解决这个问题。如果最优函数更接近于身份映射而不是零映射，那么解算器应该更容易参考身份映射来发现扰动，而不是将函数学习为新的函数。
我们对每个堆叠层采用残差学习。在形式上，在本文中，我们将构建块视为：
这里x和y是所考虑的层的输入和输出向量。函数表示要学习的残差映射。方程（1）中的快捷方式连接既不引入额外参数也不引入计算复杂性。这不仅在实践中具有吸引力，而且在我们对普通网络和剩余网络之间的比较中也很重要。我们可以公平地比较同时具有相同数量的参数，深度，宽度和计算成本的普通/残余网络。

铿锵的玫瑰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Deep Residual Learning for Image Recognition

Abstract更深的神经网络更难训练。我们提出了一个残留的学习框架，以便于对比以前使用的更深的网络进行训练。我们参考层输入明确地将层重新表示为学习残差函数，而不是学习未引用的函数。我们提供全面的经验证据表明这些残留网络更容易优化，并且可以从显着增加的深度获得准确性。在ImageNet数据集上，我们评估的残差网络的最大值为152层，比VGG网络深[8]，但仍具有较低的复杂度。这些残留网络的集...
复制链接

扫一扫

专栏目录