详文见知乎
小白记录贴~(侵删,感恩)
RNN
LSTM
LSTM在RNN的基础上引入了门控机制:遗忘、输入和输出
LSTM能保持长期记忆的原因:
两个通道在保持记忆:短期记忆h,保持非线性操作;长期记忆C,保持线性操作。因为线性操作是比较稳定的,所以C的变化相对稳定,保持了长期记忆。而对有用信息的长期记忆是通过训练获得的,也就是说在内部的几个权值矩阵中。
GRU
GRU是LSTM的变体,门控变为update(大佬们都说是将forget和input gate耦合成update gate,本人对这块理解有点不同,难道不是去掉output gate只利用了forget和input gate? 记录一下,如果日后想通了会纠正过来的~)和resent gate。
GRU能保持长期记忆的原因:
其实同LSTM, 长期记忆是线性操作, 短期记忆是非线性操作(日后若有更简洁的理解会及时更新这些内容的~)
参考文献
http://colah.github.io/posts/2015-08-Understanding-LSTMs
从RNN到LSTM--公式描述_liushui94的博客-CSDN博客_rnn公式