ResNetV2:Identity Mappings in Deep Residual Networks 论文阅读

最新推荐文章于 2024-08-17 20:13:54 发布

置顶 music&beer

最新推荐文章于 2024-08-17 20:13:54 发布

阅读量2.1k

点赞数 5

分类专栏：计算机视觉学习文章标签： dl

本文链接：https://blog.csdn.net/debug_moner/article/details/79280238

版权

计算机视觉学习专栏收录该内容

3 篇文章 1 订阅

订阅专栏

ResNetV2:Identity Mappings in Deep Residual Networks

作者：Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

                               Microsoft Research

[pdf] [github]

0. 简介

本文进一步分析了residual building blocks计算传播方式，表明了skip connections 和after-addition activation都是identity mappings，前向和后向的信号能够直接的从一个block 传递到其他任意一个block。所以文中提出了一个新的残差单元，它使得训练变得更简单，同时也提高了网络的泛化能力。

1.Motivation

在ResNet中，对于一个Resdual Unit：
resform
其中有三个很重要的部分，h，f, F:

h (X l) = X l 代 表 一 个 恒 等 映 射 ， f 代 表 R e L U 。 F 表 示 一 个 残 差 函 数

$h(X_l)=X_l 代表一个恒等映射，f代表ReLU。F 表示一个残差函数$
通过设计unit中的3个重要组成是否可以来提升ResNet的效果。

2. Analysis

如 果 h (x l) 和 f (y l) 都 是 恒 等 映 射 ， 那 么 在 前 向 和 反 向 阶 段 ， 信 号 可 以 直 接 的 从 一 个 单 元 传 递 到 其 他 任 意 一 个 单 元 。

$如果h(x_l) 和 f(y_l)都是恒等映射，那么在前向和反向阶段，信号可以直接的从一个单元传递到其他任意一个单元。$

y l = h (x l) + F (x l, W l)

$y_l =h(x_l)+F(x_l,W_l)$

x l + 1 = f (y l) .

$x_{l+1} = f(y_l).$
如果 f h都是恒等映射的话：

x l + 1 = x l + F (x l, W l)

$x_{l+1} =x_l+F(x_l,W_l)$
又递推关系：

x L = x l + \sum i = l L F (x i, W i)

$x_{L} =x_l+\sum_{i=l}^{L}F(x_i,W_i )$
文中指出这里表明任意层之间都是残差关系，同时与传统神将网络递推公式的对比，这里是一系列的加法，传统神经网络中更多的是矩阵之间的连乘，所以ResNet梯度稳定性更好也可以这样理解。
bp公式：

\partial ε \partial x l = \partial ε \partial x L \partial x L \partial x l = \partial ε \partial x L (1 + \partial \partial x l \sum i = l L F (x i, W i))

$\frac{\partial \varepsilon }{\partial x_l}=\frac{\partial \varepsilon }{\partial x_L} \frac{\partial x_L }{\partial x_l}=\frac{\partial \varepsilon }{\partial x_L}(1+\frac{\partial }{\partial x_l} \sum_{i=l}^{L}F(x_i,W_i ))$
与正向传播对应，更高层的梯度都可以通过第一项直接传递给更低的层，同时公式中显示了ResNet不可能出现梯度消失的现象。

3. Experiment

exp on h
文中比较了constant scaling、exclusive gating、short-only gating、1*1 conv shortcut以及dropout shortcut来作为h，具体结构如图：
这里写图片描述
对应的实验结果如下表所示：

fig2中的不同结构都没有origal效果好，也就是说其他形似的连接方式都会影响信息的传递。其中1*1conv的结果并不没有想ResNetV1中表现的结果那么好。
shortcut-only gating 和1×1的卷积涵盖了Identity Mapping的解空间。然而，它们的训练误差比恒等捷径连接的训练误差要高得多，这表明了这些模型退化问题的原因是优化问题，而不是表达能力的问题。

exp on f
文中分析了BN after addition，ReLU before addition，pre-activation方法作为f，研究f对ResNet效果的影响：

pre-activation:原来的设计中相加操作后面还有一个ReLU激活函数，这个激活函数会影响到残差单元的两个分支，现在将它移到残差函数分支上，快捷连接分支不再受到影响。

这里写图片描述
预激活的影响具有两个方面。第一，由于f也是恒等映射，优化变得更加简单(与原始ResNet相比)。第二，在预激活中使用BN能够提高模型的正则化。

cifar上的结果

这里写图片描述

总结

本文可以说是ResultNet的升华，通过大量的对比实验来验证自己的理论推到的正确性，作者把ResNet分成三个部分h(skip connection)，f(after-addition activation)，F(residual function)，ResNet原文对F进行了深入的研究，本文对h与f进行分析讨论，得出了足够简单，有效的结论与实验结果。