1 梯度爆炸和梯度消失产生的原因
前向传播产生loss:
y为真实标签
反向传播:
以上述简单网络中为例,梯度爆炸的现象为靠近输入层的权重更新幅度较大,产生的原因为后面层的权重初始化时初始值过大,由于连乘机制导致从后向前传播计算的梯度过大,如上述网络梯度过大是由于
初始值过大导致。
梯度消失的现象为靠近输入层的权重更新幅度过小,产生的原因为激活函数选取不当,选取的激活函数梯度值过小,由于连乘机制导致从后向前传播计算得到的梯度过小,如上述网络梯度过小是由于
过小导致。
总之,梯度消失和梯度爆炸的本质问题都是由于计算梯度反向传播的连乘机制导致。详细请参考:https://blog.csdn.net/weixin_41171061/article/details/106264239
2 解决梯度爆炸的方法和原理