Stochastic Depth ResNet

最新推荐文章于 2024-04-18 09:42:50 发布

slothfulxtx

最新推荐文章于 2024-04-18 09:42:50 发布

阅读量360

点赞数

分类专栏：图像分类文章标签：深度学习

本文链接：https://blog.csdn.net/fnoi2014xtx/article/details/106767774

版权

图像分类专栏收录该内容

22 篇文章 2 订阅

订阅专栏

Paper : Deep Networks with Stochastic Depth
Code : unofficial

摘要

随机深度神经网络是一种训练神经网络的方法，它是基于ResNet具有相当程度的冗余性的而提出的。在训练ResNet的过程中发现去掉中间几层对最终的结果也没什么影响，说明ResNet每一层学习的特征信息都非常少，冗余性很高。随机深度训练过程主要是用于解决梯度消失问题，提高训练速度，为之后的DenseNet 的提出奠定了基础。

网络结构

随机深度的训练过程核心是对于训练过程中的每个batch，我们随机选取网络层的子集，将其他层的变换使用恒等变换代替。也就是说，训练中，如果一个特定的残差块被启用了，那么它的输入就会同时流经identity shortcut和权重层；否则输入就只会流经identity shortcut。在训练的过程中，每一个层都有一个“生存概率”，并且都会被任意丢弃。在测试过程中，所有的block都将保持被激活状态，而且block都将根据其在训练中的生存概率进行调整。

在上图中，权重层 $f_l$ 使用的是经典的ResNet Block，也就是Conv-BN-ReLU-Conv-BN-ReLU

形式化的表示如下，令 $b_l$ 为服从Bernoulli 分布的随机变量，则 $b_l \in \{0,1\}$ ， $p_l = \text P(b_l = 1)$ 为网络中第 $l$ 层保留的概率，则有

$H_l = \text{ReLU}(b_l f_l(H_{l-1})+\text{id}(H_{l-1}))$

当 $b_l=0$ 该层相当于恒等映射，当 $b_l=1$ 该层相当于ResNet Block。

$p_l$ 的取值可以采用如下的式子

$p_l = 1-\frac{l}{L}(1-p_L)$

其中超参数只有 $p_L$ ，1~L层存活的概率线性下降。作者认为浅层的网络主要用于提取底层特征，而顶层特征完全依赖于底层特征，因此越浅的网络层越不应该被丢弃。

随机深度网络可以看作是参数共享的多个浅层网络的ensemble learning，而ensemble learning的特点是综合所有的模型的预测结果，因此我们可以类似地定义随机深度测试，将每层的保留概率结合到测试过程中。正向传播的过程如下

$H_l^{test} = \text{ReLU} (p_lf_l(H_{l-1}^{test};W_l)+H_{l-1}^{test})$

核心观点

提出了随机深度训练方法，加速了神经网络的训练过程，改善了网络的表现。
有效地减缓了梯度消失的现象，使得残差神经网络的可训练深度更高。
强调了模块与模块之间的顺序连接并没有那么重要，为之后全连接的Dense Net奠定了基础。

slothfulxtx

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Stochastic Depth ResNet

Paper : Deep Networks with Stochastic DepthCode : unofficial摘要随机深度神经网络是一种训练神经网络的方法，它是基于ResNet具有相当程度的冗余性的而提出的。在训练ResNet的过程中发现去掉中间几层对最终的结果也没什么影响，说明ResNet每一层学习的特征信息都非常少，冗余性很高。随机深度训练过程主要是用于解决梯度消失问题，提高训练速度，为之后的DenseNet 的提出奠定了基础。网络结构随机深度的训练过程核心是对于训练过程中的每个.
复制链接

扫一扫

专栏目录