Deep Residual Learning for Image Recognition

Ray2333

已于 2022-09-25 11:05:45 修改

阅读量615

点赞数

于 2022-09-24 19:38:07 首次发布

本文链接：https://blog.csdn.net/Ray2333/article/details/127011871

版权

前言

原文链接：Deep Residual Learning for Image Recognition | IEEE Conference Publication | IEEE Xplore

作者：Kaiming He; Xiangyu Zhang; Shaoqing Ren; Jian Sun

翻译链接：

https://blog.csdn.net/qq_43753724/article/details/125836949

Abstract

提出一个残差学习框架可以训练更深的网络

更深层次的神经网络更难训练。我们提出了一个残差学习框架，以简化比以前使用的网络深度更大的网络的训练。我们明确地将层重构为参考层输入的学习残差函数，而不是学习未引用函数。我们提供了全面的经验证据，表明这些残差网络更容易优化，并且可以从大幅增加的深度中获得准确性。在ImageNet数据集上，我们评估了深度高达152层的剩余网络，比VGG网络深8倍，但复杂性仍然较低。这些残差网络的集合在ImageNet测试集上实现了3.57%的误差。该结果在ILSVRC 2015分类任务中获得第一名。我们还对100层和1000层的CIF AR-10进行了分析。

表征的深度对于许多视觉识别任务是至关重要的。仅仅由于我们非常深入的表示，我们在COCO对象检测数据集上获得了28%的相对改进。深度残差网络是我们提交给ILSVRC和COCO 2015竞赛1的基础，在该竞赛中，我们还在ImageNet检测、ImageNet定位、COCO检测和COCO分割任务中获得了第一名。

1、Introduction

深度卷积神经网络为图像分类带来了一系列突破。深度网络以端到端的多层方式自然地集成了低/中/高级特征[49]和分类器，并且特征的“级别”可以通过堆叠层的数量(深度)来丰富。最近的证据表明网络深度至关重要，在具有挑战性的ImageNet数据集上的领先结果都利用了“非常深的”模型，深度为16到30。许多其他重要的视觉识别任务也从深度模型中受益匪浅

在深度意义的驱动下，一个问题产生了:学习更好的网络是不是和堆叠更多层一样简单？回答这个问题的一个障碍是众所周知的消失/爆炸梯度问题，它从一开始就阻碍了收敛。然而，这个问题已经在很大程度上通过标准化初始化和中间标准化层得到解决，这使得具有数十层的网络能够开始收敛于具有反向传播的随机梯度下降(SGD)。

当更深的网络能够开始收敛时，退化问题就暴露出来了:随着网络深度的增加，精度达到饱和(这可能不足为奇)，然后迅速退化。出乎意料的是，这种退化不是由过度拟合引起的，在适当深度的模型中增加更多的层会导致更高的训练误差，如[10，41]中所报告的，并通过我们的实验得到了彻底验证。图1显示了一个典型的例子。

图1。具有20层和56层“普通”网络的CIFAR-10上的训练误差(左)和测试误差(右)。更深的网络具有更高的训练误差，从而具有更高的测试误差。ImageNet上的类似现象如图4所示

（越深的网络误差越大，浅的网络效果还不错时，深的网络不应该变差，但实际不是）

（训练精度）的下降表明并非所有系统都同样容易优化。让我们考虑一个较浅的架构和一个较深的对应架构，在其上添加更多层。通过构造深层模型，存在一种解决方案：添加的层是标识映射，其他层是从学习的较浅模型复制的。该构造解的存在表明，较深的模型不应比较浅的模型产生更高的训练误差。但实验表明，我们现有的求解器无法找到比构造的解更好或更好的解（或无法在可行时间内找到）。

在本文中，我们通过引入深度残差学习框架来解决退化问题。我们不是希望每几个堆叠的层都直接符合所需的底层映射，而是显式地让这些层符合残差映射。形式上，将所需的底层映射表示为 $\mathcal{H}(x)$ ，我们让堆叠的非线性层符合另一个映射 $\mathcal{F}(x)=\mathcal{H}(x) -x$ 。因此，原来的映射转化为 $F ( x ) + x$ 。我们假设优化残差映射比优化原始的、未引用的映射更容易。在极端情况下，如果一个恒等式映射是最优的，那么将残差推到零将比通过一堆非线性层来拟合恒等式映射更容易。

图2.残差学习：构建模块

这是resnet的核心，提出一个办法可以显示构造一个indentity mapping，使得更深的网络不会比浅的差

F(x)+x的公式可以通过具有“shortcut connections”的前馈神经网络实现（图2）,Shortcut connections是指跳过一层或多层的连接。在我们的例子中，快捷连接简单地执行恒等映射，并且它们的输出被添加到堆叠层的输出中（图 2）。恒等的Shortcut Connection既不增加额外参数，也不增加计算复杂性。整个网络仍然可以通过带有反向传播的 SGD 进行端到端训练，并且可以使用通用库（例如 Caffe [19]）轻松实现，而无需修改求解器。

我们在 ImageNet [35] 上进行了综合实验，以展示退化问题并评估我们的方法。我们证明：1）我们的极深残差网络很容易优化，但是当深度增加时，对应的“普通”网络（简单地堆叠层）表现出更高的训练误差； 2）我们的深度残差网络可以很容易地从深度增加中获得准确度，产生的结果比以前的网络要好得多。

在CIFAR-10数据集[20]上也显示了类似的现象，表明优化困难和我们方法的效果不仅仅类似于特定数据集。我们在这个超过100层的数据集上展示成功训练的模型，并探索超过1000层的模型。

在ImageNet分类数据集[35]上，我们通过极深残差网获得了很好的结果。我们的152层剩余网络是ImageNet上有史以来最深的网络，但其复杂性仍低于VGG网络[40]。我们的集成在 ImageNet 测试集上有 3.57% 的 top-5 错误，并在 ILSVRC 2015 分类竞赛中获得第一名。极深的表示在其他识别任务上也具有出色的泛化性能，并带领我们在 ILSVRC & COCO 2015 竞赛中进一步赢得：ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割的第一名。这有力的证据表明，残差学习原理是通用的，我们期望它适用于其他视觉和非视觉问题。

2.Related Work

残差表示。在图像识别中，VLAD [18] 是一种由残差向量相对于字典进行编码的表示，Fisher Vector [30] 可以表述为 VLAD 的概率版本 [18]。它们都是用于图像检索和分类的强大的浅层表示 [4, 47]。对于向量量化，编码残差向量[17]被证明比编码原始向量更有效。

在低级视觉和计算机图形学中，为了求解偏微分方程 (PDE)，广泛使用的 Multigrid 方法 [3] 将系统重新表述为多个尺度的子问题，其中每个子问题负责粗细粒度之间的残差解规模。Multigrid 的替代方法是分层基础预处理 [44, 45]，它依赖于表示两个尺度之间的残差向量的变量。已经证明[3,44,45]，这些求解器比不知道解的残差性质的标准求解器收敛快得多。这些方法表明，良好的重新配方或预处理可以简化优化。

Shortcut Connection。导致Shortcut Connection的实践和理论已经被研究了很长时间。训练多层感知器(MLPs)的早期实践是添加一个从网络输入连接到输出的线性层[33，48]。在 [43, 24] 中，一些中间层直接连接到辅助分类器以解决梯度消失或梯度爆炸。 [38, 37, 31, 46] 的论文提出了通过Shortcut Connection来实现层响应、梯度和传播误差的中心化方法。在[43]中，“inception”层由一个Shortcut分支和一些更深的分支组成。

与我们的工作同时进行的是，“highway network”[41，42]提出了门控函数的shortcut connection[15]。这些门是数据相关的，有参数，而我们的身份快捷方式是无参数的。当门控shortcut是“关闭”（接近零）时，highway networks中的层表示非残差函数。相反，我们的公式总是学习残差函数；我们的Shortcut Connection永远不会关闭，所有信息总是通过，还有额外的残差函数需要学习。此外，highway network没有表现出随着深度的极大增加（例如，超过 100 层）的准确性提高。

图 3. ImageNet 的示例网络架构。左：作为参考的 VGG-19 模型 [40]（196 亿 FLOPs）。中间：具有 34 个参数层（36 亿次浮点运算）的普通网络。

右图：具有 34 个参数层（36 亿次浮点运算）的残差网络。虚线的shortcuts增加了维度。表 1 显示了更多细节和其他变体。

Ray2333

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Deep Residual Learning for Image Recognition

Kaiming He;;;Jian SunAbstract提出一个残差学习框架可以训练更深的网络更深层次的神经网络更难训练。我们提出了一个残差学习框架，以简化比以前使用的网络深度更大的网络的训练。我们明确地将层重构为参考层输入的学习残差函数，而不是学习未引用函数。我们提供了全面的经验证据，表明这些残差网络更容易优化，并且可以从大幅增加的深度中获得准确性。在ImageNet数据集上，我们评估了深度高达152层的剩余网络，比VGG网络深8倍，但复杂性仍然较低。
复制链接

扫一扫