RNN学习笔记(三)-LSTM网络
为了解决RNN的梯度问题,提出了一种优化的RNN网络——LSTM(Long short-term memory):
- 1.RNN的梯度问题及CEC
- 2.LSTM的网络结构
- 3.梯度传递公式推导
- 4.参考文献
1.RNN的梯度问题及CEC
在《RNN学习笔记(二)》中,我们对RNN网络的误差传导进行了分析,结果表明,误差的变化与时延长度q存在指数变化的关系,因此极不稳定,这个问题怎么解决呢?一种可能的办法是,使用常数误差。
假设只有一个单元j,j有一个自连接,如下图:
δj(t)=f′j(sj(t))δj(t+1)wjj
把 δj(t) 看做变量,对两边求微分得:
∂δj(t)=(f′j(sj(t))wjj)∂δj(t+1)
做一下变形:
∂δj(t)∂δj(t+1)=(f′j(sj(t))wjj)
由微分方程的性质,可知,只要令 f′j(sj(t))wjj=1 ,即可保证变量随时间稳定。
所以有:
∂fj(sj(t))∂sj(t)wjj=1
变形得:
dfj(sj(t))=dsj(t)wjj
对两边求积分得:
∫d