李宏毅：Gated RNN and Sequence generation

最新推荐文章于 2024-05-16 17:38:19 发布

jiaojiaolou

最新推荐文章于 2024-05-16 17:38:19 发布

阅读量437

点赞数

分类专栏：学习笔记文章标签： deep learning

本文链接：https://blog.csdn.net/jiaojiaolou/article/details/91375867

版权

学习笔记专栏收录该内容

31 篇文章 2 订阅

订阅专栏

本文探讨了门控循环神经网络（Gated RNN），包括LSTM和GRU，强调了它们在处理长期依赖问题上的优势。LSTM通过input、forget和output门控保持稳定记忆，而GRU则简化为reset和update门控。接着，文章介绍了序列生成，特别是seq-to-seq模型和动态条件生成，其中注意力机制（Attention-based model）在匹配输入和输出序列中起到关键作用。

摘要由CSDN通过智能技术生成

1、RNN with gated machanism

（1）RNN

（2）deep RNN

（3）Bidirectional RNN

（4）Naive RNN

（5）LSTM

因为LSTM中的input c变化是很慢的，所以它能够记得很久之前的内容，不会有太大的变化。

h(t-1)和c(t-1)是上一个LSTM的output。

可以把c(t-1)也放进去。

z(i)决定z这个information能不能够被拿进来使用。z(f)就是决定c(t-1)的information要不要在接下来的output中使用（c(t-1)其实是memory，代表过去的information）。z(o)决定最终的output能不能够出来。

（6）GRU

GRU相比于LSTM，好处是参数比较少。一个是reset gate(r)，一个是update gate(z)，z有点像forget gate和input gate的角色。GRU中的h类似于LSTM中的c，h的变化是比较小的。GRU里的input gate和forget gate是联动的，一定要有新的东西进来，才会忘掉东西，当你忘掉东西的时候，就会有新的东西进来。