为什么残差连接的网络结构更容易学习

作者:言有三
链接:https://www.zhihu.com/question/306135761/answer/683325207
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 

关于残差网络为什么有效,研究众多,这里我们就集中讲述几个主流的思路。

1、简化了学习过程,增强了梯度传播

相比于学习原始的信号,残差网络学习的是信号的差值,这在许多的研究中被验证是更加有效的,它简化了学习的过程。

根据我们前面的内容可知,在一定程度上,网络越深表达能力越强,性能越好。

然而随着网络深度的增加,带来了许多优化相关的问题,比如梯度消散,梯度爆炸。

在残差结构被广泛使用之前,研究人员通过研究更好的优化方法,更好的初始化策略,添加Batch Normalization,提出Relu等激活函数的方法来对深层网络梯度传播面临的问题进行缓解,但是仍然不能解决根本问题。

假如我们有这样一个网络:

其中f为卷积操作,g为非线性变换函数,k为分类器,依靠误差的链式反向传播法则,损失loss对f的导数为:

如果其中某一个导数很小,多次连乘后梯度可能越来越小,这就是常说的梯度消散,对于深层网络,从靠近输出的深层传到靠近输入的浅层时梯度值非常小,使得浅层无法有效地更新。

如果使用了残差结构,因为导数包含了恒等项,仍然能够有效的反向传播。

举一个非常直观的例子方便理解,假如有一个网络,输入x=1,非残差网络为G,残差网络为H,其中H(x)=F(x)+x,假如有这样的输入关系:

因为两者各自是对G的参数和F的参数进行更新,可以看出变化对F的影响远远大于G,说明引入残差后的映射对输出的变化更敏感,这样是有利于网络进行传播的。

2、打破了网络的不对称性[5]

虽然残差网络可以通过跳层连接,增强了梯度的流动,从而使得上千层网络的训练成为可能,不过相关的研究表面残差网络的有效性,更加体现在减轻了神经网络的退化

如果在网络中每个层只有少量的隐藏单元对不同的输入改变它们的激活值,而大部分隐藏单元对不同的输入都是相同的反应,此时整个权重矩阵的秩不高。并且随着网络层数的增加,连乘后使得整个秩变的更低,这就是我们常说的网络退化问题。

虽然权重矩阵是一个很高维的矩阵,但是大部分维度却没有信息,使得网络的表达能力没有看起来那么强大。这样的情况一定程度上来自于网络的对称性,而残差连接打破了网络的对称性。

下面展示了三种跳层连接恢复网络表达能力的案例,分别是消除输入和权重零奇点,打破对称性,线性依赖性

3、增强了网络的泛化能力[6]

有一些研究表明,深层的残差网络可以看做是不同深度的浅层神经网络的ensemble,训练完一个深层网络后,在测试的时候随机去除某个网络层,并不会使得网络的性能有很大的退化,而对于VGG网络来说,删减任何一层都会造成模型的性能奔溃,如下图。

甚至去除和打乱一些网络层,性能的下降也是一个很平滑的过程。

以上都证明了残差结构其实是多个更浅的网络的集成,所以它的有效深度看起来表面的那么深,因此优化自然也没有那么难了。

关于残差,还有需要的研究,大家可以持续关注知乎以及星球。

参考文献

[1] Schraudolph N. Accelerated gradient descent by factor-centering decomposition[J]. Technical report/IDSIA, 1998, 98.

[2] Raiko T, Valpola H, LeCun Y. Deep learning made easier by linear transformations in perceptrons[C]//Artificial intelligence and statistics. 2012: 924-932.

[3] Srivastava R K, Greff K, Schmidhuber J. Training very deep networks[C]//Advances in neural information processing systems. 2015: 2377-2385.

[4] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[5] Orhan A E, Pitkow X. Skip Connections Eliminate Singularities[J]. international conference on learning representations, 2018.

[6] Veit A, Wilber M J, Belongie S. Residual networks behave like ensembles of relatively shallow networks[C]//Advances in neural information processing systems. 2016: 550-558.

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度残差网络(Residual Network,ResNet)是一种非常流行的卷积神经网络结构,其最初是为了解决深度神经网络训练中出现的梯度消失问题而提出的。深度残差网络通过引入残差连接(Residual Connection)来实现网络的深度增加,从而有效地避免了梯度消失问题,同时还能提高网络的准确性和稳定性。 深度残差网络结构通常由若干个残差块(Residual Block)组成,每个残差块包含若干个卷积层和残差连接。在残差块中,输入特征图先经过若干个卷积层得到中间特征图,然后将中间特征图和输入特征图相加得到残差特征图,最后再经过一些卷积层得到输出特征图。残差连接的作用是将输入特征图直接加到输出特征图中,从而构建了一条直接的捷径,使得梯度能够容易地从输出层回传到输入层,从而有效地避免了梯度消失问题。 深度残差网络结构也可以作为生成器的网络结构,用于生成对抗网络(GAN)中。在GAN中,深度残差网络通常作为生成器的主干网络结构,用于生成高质量的图像。深度残差网络在生成器中的作用是,通过学习样本数据中的特征和分布,生成与真实样本相似的图像。同时,由于深度残差网络具有较强的特征提取能力和非线性映射能力,因此能够好地提高生成器的性能和效率。 总之,深度残差网络结构是一种非常有效的神经网络结构,可以用于各种任务和应用中,包括图像分类、图像生成、物体检测、语音识别等。在生成对抗网络中,深度残差网络也是一种非常有潜力的生成器网络结构,可以用于生成高质量的图像和其他类型的数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值