《Deep Residual Learning for Image Recognition》翻译

最新推荐文章于 2023-04-08 15:50:02 发布

ShaneneD

最新推荐文章于 2023-04-08 15:50:02 发布

阅读量3.6k

点赞数 2

分类专栏：残差网络 CNN经典论文文章标签：残差网络 ResNet

2015年

原文：https://arxiv.org/abs/1512.03385

截图源自：原文

plain network：普通网络（原文提出）

摘要

更深的神经网络更难以训练。我们提出了一个残差学习框架来减轻网络的训练，这些网络比以前使用的网络要深得多。我们明确地将层次重新定义为参照层次输入学习残差功能，而不是学习未引用的功能。我们提供全面的经验证据，显示这些残留网络更容易优化，并且可以从深度增加中获得准确性。在ImageNet数据集上，我们评估了深度达152层的残余网络，其深度比VGG网络深[8]，但仍然具有较低的复杂度。这些残差网络的集合在ImageNet测试集上达到3.57％的误差。这一成绩赢得了ILSVRC 2015分类任务的第一名。我们还分析了100和1000层的CIFAR-10。
表示的深度对于许多视觉识别任务来说具有核心重要性。完全由于我们极其深层的表示，我们对COCO目标检测数据集获得了28％的相对改进。深度残留网络是我们提交ILSVRC＆COCO 2015比赛1的基础，我们还在ImageNet检测，ImageNet本地化，COCO检测和COCO分割任务中赢得了第一名。

1.引言

深卷积神经网络[22,21]已经为图像分类带来了一系列突破[21,50,40]。深度网络自然地以端到端的多层方式集成了低/中/高级特征[50]和分类器，并且特征的“水平”可以通过堆叠层数（深度）来丰富。最近的证据[41,44]揭示了网络深度是至关重要的，并且在具有挑战性的ImageNet数据集[36]中的主要结果[41,44,13,16]都利用“非常深”的[41]模型，深度十六[41]至三十[16]。许多其他非平凡的视觉识别任务[8,12,7,32,27]也从非常深的模型中获益匪浅。

受深度意义的驱动，出现了一个问题：学习更好的网络就像堆叠更多层一样简单吗？回答这个问题的一个障碍是臭名昭着的消失/爆发梯度问题[1，9]，这阻碍了从一开始的融合。然而，这个问题已经基本上通过归一化初始化[23,9,37,13]和中间归一化层[16]来解决，这使得具有数十个层的网络开始收敛以用于反向传播的随机梯度下降（SGD） [22]。

当更深的网络能够开始收敛时，就会出现退化问题：随着网络深度的增加，准确度变得饱和（这可能不令人意外），然后迅速退化。出乎意料的是，这种退化不是由过拟合引起的，并且向适当深度的模型中添加更多层会导致更高的训练错误，如[11,42]中所报告并且我们的实验已经完全验证。图1显示了一个典型的例子。

退化（训练准确性）表明并非所有系统都同样易于优化。让我们考虑一个更浅的架构和更深层次的架构，在其上添加更多层。在深层模型中存在一个解决方案：增加的层是恒等映射，其他层是从学习的浅层模型复制的。这个构建的解决方案的存在表明，深层模型不应该比浅层模型产生更高的训练误差。但是实验表明，我们目前的求解器无法找到比构建的解决方案相当好或更好的解决方案（或在可行时间内无法这样做）。

在本文中，我们通过引入深度残差学习框架来解决退化问题。除了希望每个堆叠层都直接适合所需的底层映射外，我们明确地让这些层适合残差映射。形式上，将期望的底层映射表示为H（x），我们让堆叠的非线性层适合F（x）的另一个映射：= H（x） - x。原始映射重写为F（x）+ x。我们假设优化残差映射比优化原始的，未引用的映射更容易。极端情况下，如果身份映射是最优的，那么将残差推到零比通过一堆非线性层适合身份映射更容易。

最低0.47元/天解锁文章

ShaneneD

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
《Deep Residual Learning for Image Recognition》翻译

2015年原文：https://arxiv.org/abs/1512.03385截图源自：原文plain network：普通网络（原文提出）摘要更深的神经网络更难以训练。我们提出了一个残差学习框架来减轻网络的训练，这些网络比以前使用的网络要深得多。我们明确地将层次重新定义为参照层次输入学习残差功能，而不是学习未引用的功能。我们提供全面的经验证据，显示这些残留网络更容易优化，并且可以从深度增加中获...
复制链接

扫一扫