Deep Residual Learning for Image Recognition

最新推荐文章于 2022-09-26 19:24:41 发布

2014wzy

最新推荐文章于 2022-09-26 19:24:41 发布

阅读量1.3k

点赞数

分类专栏： resnet

本文链接：https://blog.csdn.net/u014696921/article/details/53510445

版权

resnet 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

CVPR2016
https://github.com/KaimingHe/deep-residual-networks

这是微软方面的最新研究成果，在第六届ImageNet年度图像识别测试中，微软研究院的计算机图像识别系统在几个类别的测试中获得第一名。

本文是解决超深度CNN网络训练问题，152层及尝试了1000层。

随着CNN网络的发展，尤其的VGG网络的提出，大家发现网络的层数是一个关键因素，貌似越深的网络效果越好。但是随着网络层数的增加，问题也随之而来。

首先一个问题是 vanishing/exploding gradients，即梯度的消失或发散。这就导致训练难以收敛。但是随着 normalized initialization [23, 9, 37, 13] and intermediate normalization layers[16]的提出，解决了这个问题。

当收敛问题解决后，又一个问题暴露出来：随着网络深度的增加，系统精度得到饱和之后，迅速的下滑。让人意外的是这个性能下降不是过拟合导致的。如文献 [11, 42]指出，对一个合适深度的模型加入额外的层数导致训练误差变大。如下图所示：
这里写图片描述

如果我们加入额外的层只是一个 identity mapping，那么随着深度的增加，训练误差并没有随之增加。所以我们认为可能存在另一种构建方法，随着深度的增加，训练误差不会增加，只是我们没有找到该方法而已。

这里我们提出一个 deep residual learning 框架来解决这种因为深度增加而导致性能下降问题。假设我们期望的网络层关系映射为 H(x), 我们让 the stacked nonlinear layers 拟合另一个映射， F(x):= H(x)-x , 那么原先的映射就是 F(x)+x。这里我们假设优化残差映射F(x) 比优化原来的映射 H(x)容易。

F(x)+x 可以通过shortcut connections 来实现，如下图所示：

这里写图片描述

2 Related Work
Residual Representations
以前关于残差表示的文献表明，问题的重新表示或预处理会简化问题的优化。 These methods suggest that a good reformulation or preconditioning can simplify the optimization

Shortcut Connections
CNN网络以前对shortcut connections 也有所应用。

3 Deep Residual Learning
3.1. Residual Learning
这里我们首先求取残差映射 F(x):= H(x)-x，那么原先的映射就是 F(x)+x。尽管这两个映射应该都可以近似理论真值映射 the desired functions (as hypothesized)，但是它俩的学习难度是不一样的。

这种改写启发于图1中性能退化问题违反直觉的现象。正如前言所说，如果增加的层数可以构建为一个 identity mappings，那么增加层数后的网络训练误差应该不会增加，与没增加之前相比较。性能退化问题暗示多个非线性网络层用于近似identity mappings 可能有困难。使用残差学习改写问题之后，如果identity mappings 是最优的，那么优化问题变得很简单，直接将多层非线性网络参数趋0。

实际中，identity mappings 不太可能是最优的，但是上述改写问题可能对问题提供有效的预先处理 (provide reasonable preconditioning)。如果最优函数接近identity mappings，那么优化将会变得容易些。实验证明该思路是对的。

3.2. Identity Mapping by Shortcuts
图2为一个模块。A building block
公式定义如下：
这里写图片描述
这里假定输入输出维数一致，如果不一样，可以通过 linear projection 转成一样的。

3.3. Network Architectures
这里写图片描述

Plain Network 主要是受 VGG 网络启发，主要采用3*3滤波器，遵循两个设计原则：1）对于相同输出特征图尺寸，卷积层有相同个数的滤波器，2）如果特征图尺寸缩小一半，滤波器个数加倍以保持每个层的计算复杂度。通过步长为2的卷积来进行降采样。一共34个权重层。
需要指出，我们这个网络与VGG相比，滤波器要少，复杂度要小。

Residual Network 主要是在上述的 plain network上加入 shortcut connections

3.4. Implementation
针对 ImageNet网络的实现，我们遵循【21,41】的实践，图像以较小的边缩放至[256,480]，这样便于 scale augmentation，然后从中随机裁出 224*224，采用【21,16】文献的方法。

4 Experiments
这里写图片描述

这里写图片描述

论文下载：

Deep Residual Learning for Image Recognition

CVPR2016最佳论文，夺得ImageNet recognition, ImageNet detection, ImageNet localization, COCO detection, and COCO segmentation五项第一。

这篇论文由微软研究院的四人团队：Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun发表，解决了深层网络训练和测试误差低的问题。

摘要

提出了一种残差学习方式，让训练比以往更深的网络更为简单。在大量的实验仿真基础上，证实了这种残差网络确实更易于优化并且通过增加层数获得更准确的结果。这种方法可用于图像识别的各个方面（image classification，object detection等等）

但是这里我觉得这种方法还可以用于其他地方，比如训练一个全连接的网络，不一定是CNN，普通的网络应该也能提升效果

介绍

深度卷积网络已经取得了一系列的成就，因为他能很好的结合图像底层到高层语义上的各个特征。最新的研究表明网络深度还是一个至关重要的因素，在ImageNet数据集上，领先的几个模型都使用了很深的模型（16-30层不等），其他数据集上同样也是，深层模型会有更好的表现。

但是深层模型同样带来了问题：第一就是著名的梯度弥散和爆炸问题，导致结果不会收敛。但是这个问题通过normalized initialization和intermediate normalization layers可以解决（我在后面的博客中会解释讨论这个问题）。同时，作者还发现了一个问题，深层网络会导致“精度下降”，但是这种“精度下降”并不是过拟合导致的（下图显示了作者的结果）

于是就产生了这样一个问题：假设我们训练了一个浅层网络，它的error已经稳定，然后我们在它的基础上又添加了多个层，但是error增加了。

作者考虑到了某一种特殊情况，假设添加进去的多个层不改变原先的输出，相当于做一个恒等映射（实际上这就是当前网络的一个solution），那么这

一个solution应该与原网络的error一样，而实际中却并不能找到这样的solution。

作者在论文中提出了一个深度残差学习框架来解决这个“精度下降”问题，即不通过堆叠一些层直接学习从input到output的映射，而是让他们学习一个残差映射，具体结构图如下：F（x）是在x基础上的残差，如果用H（x）表示目标映射的话，那么F（x）=H（x）-x。在这个前提下，我们知道最后的目标输出就是F（x）+x，x这个量通过输入端的一个shortcut connection连接到输出，这种形式就构成了短路结构。这一个短路连接，实现的是x的恒等映射，而且它并没有带入任何参数，也没有增加任何的计算复杂性。