1、什么是梯度消失、梯度爆炸
以BP反向传播为例,链式求导法则,前面的隐藏层的权值和偏值依赖后面的层,当激活函数的时,层数越多时,求导结果越小,导致前面几层的权值和偏重与初始值没有较大区别,参数更新缓慢,这就是所谓的梯度消失情况。
同理,梯度爆炸:链式求导导致结果特别大,参数更新非常快。由此可见,梯度消失和梯度爆炸主要是因为网络太深,权值更新不稳定造成的,本质原因是因为反向传播中的连乘效应导致的。
改进方法:
(1)选择合适的激活函数,如:用Relu函数代替Sigmoid函数
(2)对于RNN网络中存在的梯度消失问题,可以选择LSTM结构代替;
具体数学过程解释梯度消失和梯度爆炸,参考博客:https://ziyubiti.github.io/2016/11/06/gradvanish/
2、LSTM(Long Short Term Memory)结构
三个门限:
(1)input
梯度消失问题及LSTM代码片段
最新推荐文章于 2023-10-25 14:31:49 发布