梯度消失与梯度爆炸

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u011026329/article/details/79188392

梯度消失与梯度爆炸

网络层数太多是导致梯度消失或者梯度爆炸的直接原因, 使用S型激活函数(如:sigmoid函数,tanh函数)会导致梯度消失问题,初始权重设置太大会导致梯度爆炸。

梯度消失指的是权重不再更新,直观上看是从最后一层到第一层权重的更新越来越慢,直至不更新。本质原因是反向传播的连乘效应,导致最后对权重的偏导接近于零。

主要是因为以前用sigmoid的时候,sigmoid中心部位和两侧的梯度差别太大,如果权重初始化得太大,激活值基本都在sigmoid两侧,两侧梯度几乎为0,传播几层就没有梯度了。

即使用很好的初始化算法把激活值控制在一个合理范围内,优化几下有几个神经元就又跑到两侧了,而一旦到两侧,因为梯度过小,就再也无法通过梯度更新来使其恢复。

这个问题在提出ReLU和有效的初始化方法(例如MSRA)后已经大概率解决。

后来又出了个Batch Normalization,不管优化多少层都跟浅层一样,梯度消失问题基本可以认为彻底解决了。

推导:

这里写图片描述

展开阅读全文

没有更多推荐了,返回首页