LSTM 解决梯度弥散和消失的核心要素是在求细胞状态的的嘶吼采用了加法(与残差类似),通过这样的情况,避免了BP 的时候连乘导致的梯度消失或者爆炸。
LSTM(Long Short Term Memory)出现的目的是解决RNN对于长期依赖可能产生的梯度消失或者梯度爆炸的问题
LSTM相较于RNN,出现细胞状态并且是三个输出两个结果,具体如下Ct和Ht两种不同的输出:首先是忘记门
忘记门,通过x,和ht-1状态,获得忘记门的系数,以用来更新记忆信息
更新门,获得it参数,已经原RNN模块的神经元的结果
并获得新的记忆细胞并且输出到下一个LSTM单元
输出门:
根据记忆细胞,更新ht输出。
GRU,GRU模型是根据LSTM改进而来的,具体就是体现在将遗忘门与更新门合并,并且取消了记忆细胞。
这里其实最关键的需要注意Rt,因为rt是评估ht-对最新的ht的影响。