作者:言有三
链接:https://www.zhihu.com/question/306135761/answer/683325207
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
关于残差网络为什么有效,研究众多,这里我们就集中讲述几个主流的思路。
1、简化了学习过程,增强了梯度传播
相比于学习原始的信号,残差网络学习的是信号的差值,这在许多的研究中被验证是更加有效的,它简化了学习的过程。
根据我们前面的内容可知,在一定程度上,网络越深表达能力越强,性能越好。
然而随着网络深度的增加,带来了许多优化相关的问题,比如梯度消散,梯度爆炸。
在残差结构被广泛使用之前,研究人员通过研究更好的优化方法,更好的初始化策略,添加Batch Normalization,提出Relu等激活函数的方法来对深层网络梯度传播面临的问题进行缓解,但是仍然不能解决根本问题。
假如我们有这样一个网络:
其中f为卷积操作,g为非线性变换函数,k为分类器,依靠误差的链式反向传播法则,损失loss对f的导数为: