为什么RNN会产生梯度爆炸与消失,LSTM为什么可以解决这一问题
为什么RNN会产生梯度爆炸与消失,LSTM为什么可以解决这一问题
原文链接–知乎
经典的RNN结构如下图所示:
假设我们的时间序列只有三段, S_{0} 为给定值,神经元没有激活函数,则RNN最简单的前向传播过程如下:
假设在t=3时刻,损失函数为
则对于一次训练任务的损失函数为 ,即每一时刻损失值的累加。
使用随机梯度下降法训练RNN其实就是对 W_{x} 、 W_{...
转载
2019-04-12 16:56:14 ·
3121 阅读 ·
2 评论