《Residual Networks Behave Like Ensembles of Relatively Shallow Networks》笔记

最新推荐文章于 2024-02-27 21:43:08 发布

KangRoger

最新推荐文章于 2024-02-27 21:43:08 发布

阅读量3.2k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Paper笔记文章标签：残差网络 ensemble 深度学习

本文链接：https://blog.csdn.net/kangroger/article/details/68938680

Paper笔记专栏收录该内容

10 篇文章

订阅专栏

本文深入探讨了残差网络的工作原理及其与传统网络的区别。介绍了残差网络如何通过引入identity skip-connections解决深层网络训练难题，揭示了残差网络内部路径的特性及其实验结果，表明残差网络能够容忍部分路径的移除而不显著影响性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Residual Networks Behave Like Ensembles of Relatively Shallow Networks从ensemble角度解释Deep Residual Networks。

深度残差网络，使网络的层数大大加深，网络的学习表达能力超过在此之前的所有网络。这篇文章从emsemble角度来解释其工作的原理，对比从残差角度来解释，似乎更有说服力。

残差网络与之前网络不同点

现代的计算机视觉系统架构都比较类似，都是输入low-level features，学习和和任务相关的high-level features。深度残差网络与之不同：1、引入了identity skip-connections，数据可以跳过某些层；2、skip-connections使得网络的深度多了两个量级，深度可达1202层；3、在测试阶段，移除某些层，对结果不会有显著影响，以往的网络结果，移除任何一层会对结果又非常大影响。

深度残差网络可以看过许多路径组成网络的一个集合。这些路径是否独立，它们之间是否有冗余？作者通过移除某些路径做实验，得出结论：深度残差网络是多个模型ensemble，逐渐移除路径，对结果的影响是平滑的。深度残差网络的路径不同，深度不同；路径的分布服从二项分布，意味着一个110层的网络实际大概深度只有55层。在训练过程中，梯度的来源更浅，只有10-34层。

残差网络展开后的形式

深度残差网络中，起作用的路径相对不深。深度残差网络并没有解决梯度消失的问题，它只是通过缩短有效连接路径使得网络变深。

上图左边是一个残差网络结构，一个残差网络可以定义为：

y i = f i (y i - 1 ） + y i - 1

$y_i = f_i(y_{i-1}）+ y_{i-1}$

其中 $f_i$ 是一个模块它中间可能经过了convoltion、batch normalization、ReLU。

右边是把左边网络展开后的结构，两者等同。从这个角度来看，残差网络显式连接路径有 $O(2^n)$ 个。它的数学表示为：

y 3 = = = y 2 + f 3 (y 2) [y 1 + f 2 (y 1)] + f 3 (y 1 + f 2 (y 1)) [y 0 + f 1 (y 0) + f 2 (y 0 + f 1 (y 0))] + f 3 (y 0 + f 1 (y 0) + f 2 (y 0 + f 1 (y 0)))

$\begin{align*} y_3 =& y_2 + f_3(y_2) \\ =& [y_1 + f_2(y_1)] + f_3(y_1 + f_2(y_1)) \\ =& [y_0 + f_1(y_0) + f_2(y_0 + f_1(y_0))] + f_3(y_0 + f_1(y_0) + f_2(y_0 + f_1(y_0))) \end{align*}$

通过上面公式可以看出，数据有很多路径可以通过残差模块。对于一个残差模块，数据可以通过或跳过两种选择，对于 $n$ 各残差模块，共有 $2^n$ 条路径。

VGG和AlexNet这样序列网络结构（上图右边），网络数学表示为：

y 3 = f 3 (f 2 (f 1 (y 0)))

$y_3 = f_3(f_2(f_1(y_0)))$

上图左边，残差网络除去 $f_2$ 层，需要去掉4条路径。

实验

通过实验，在测试阶段，残差网络通过删除一些路径或残差模块，或者re-order残差模块，通过测试结果对比影响。。

路径对测试结果的影响

首先对比删除一个路径，即删除残差模块中的非线性部分， $y_i = f(y_{i-1}) + y_{i-1}$ 变为 $y_i = y_{i-1}$ 。
1、在CIFAR-10数据集上，通过删除某些层，和VGG做对比：

可以发现，VGG删除任何一层，测试结果相当于随机选择了。而残差网络不通，删除层对残差网络分类结果影响很小。