ResNet 论文阅读笔记

最新推荐文章于 2024-03-21 20:25:47 发布

luputo

最新推荐文章于 2024-03-21 20:25:47 发布

阅读量828

点赞数

分类专栏：论文笔记文章标签：人工智能神经网络

本文链接：https://blog.csdn.net/luo3300612/article/details/89085289

版权

论文笔记专栏收录该内容

41 篇文章

订阅专栏

ResNet 论文阅读笔记

原文：Deep Residual Learning for Image Recognition

概括

文章提出了深度残差学习网络，解决了深层网络难以优化的问题，核心思想是以学习残差代替学习直接映射，理论上这降低了网络学习到恒等映射的难度，从而使得更深的网络起码和浅的网络效果一样好

文章解决了什么问题

更深的神经网络更难训练，容易出现梯度爆炸和消失的问题，但初始化的正规化和中间层的正规化很大程度的降低了这一可能（不是本文主要解决的问题）
更深的网络的准确率达到饱和，进而不断下降，增加更多层反而引起更多的误差
这意味着这个系统难以优化（本文主要解决的就是更深的网络的优化问题）

用了什么方法

主要思想

理论上来说，更深的网络至少可以表现地和浅层的网络一样好，只要在一个浅层的网络后加多层恒等变换层

提出了残差学习网络来降低深层神经网络的学习难度，网络不直接学习输入到输出的映射 $H (x)$ 而学习输出和输入之差 $F (x) = H (x) - x$ ，然后通过 $F (x) + x$ 重建原映射，作者认为，如果恒等映射是最优的，这样的网络学习恒等变换比原来要简单（只要层的所有参数为0即可）

细节

在这里插入图片描述
x的传播可以很容易地使用shortcut connections实现

图中给出了ResNet的building block，定义为
$y=F(x,\{W_i\})+x$
其中 $x$ ， $y$ 分别为输入和输出， $F$ 表示待学习的残差映射，比如在上图中，就有 $F=W_2\sigma(W_1x)$ ，其中 $\sigma$ 是ReLU函数，且为了简洁省略了偏置项，注意第二个非线性层在 $F (x) + x$ 之后使用

注意到这个shortcut connection没有引入新的参数和额外的计算复杂度

注意到 $F$ 和 $x$ 的维度必须相同，如果不相同，可以通过一个投影变换实现
$y=F(x,\{W_i\})+W_sx$
作者也提出可以在维度match的时候在 $x$ 前加一个方阵 $W_s$ ，但实验中表明恒等映射已经足够， $W_s$ 仅仅在维度不匹配时使用
每个building block中的层数大于等于两层（图例中是两层），作者观察到使用1层并不能带来什么好处，可能由于1层本身就是一个线性变换 $y=W_1x+x$

网络结构
在这里插入图片描述
作者使用一个plain网络和一个ResNet来做对比，其中

plain Network
- 所有卷积之后输出的大小不变
- 如果特征图长宽小一半，则卷积核的数量加倍（channel加倍）以保证每层计算复杂度一样
Residual Network
- 在plain Network的基础上加shortcut connections
- channel相同时，之间使用identity shortcuts
- 如果channel增加了（图中虚线），有两个选择：
  - (A) 0 padding
  - (B) 使用投影变换
- channel增加伴随着feature map的减小，此时相加的时候对x使用stride=2
  注意其中的多数下采样均是由stride为2的卷积网络实现的，而非池化层