一.LSTM
RNN的H只能保留最近一段时间的memory
原始RNN
LSTM的初衷:ht-1过滤门过滤一部分信息,xt-1过滤一部分信息,两者结合再过滤一部分信息,最后输出。
对信息的过滤通过sigmoid函数实现
一个sigmoid一个门。Ct-1控制过去的信息,ht-1和xt得到新的输入,通过运算
乘,信息过滤;+信号融合
- 1.遗忘门
ht-1和新来的xt信息融合后,经过过滤得到t时刻遗忘的量
ct-1×ft得到过去信息遗忘之后的信息(过滤后的历史信息)
- 2.输入门
it为输入门的一个开度,用wi控制
新进来的信息并不单纯是xt,做了tanh计算
it×c~得到过滤后输入新的信息(过滤后新的信息)
最后,输入门,对以上两个信息做融合
已经得到memory Ct
- 3.输出门
先wo矩阵得到一个开度
梯度计算
为什么LSTM可以解决梯度消失
有效避免了Whh的k次方,梯度信息是4项累加,全是大或者全是小概率很小。