李宏毅:Gated RNN and Sequence generation

本文探讨了门控循环神经网络(Gated RNN),包括LSTM和GRU,强调了它们在处理长期依赖问题上的优势。LSTM通过input、forget和output门控保持稳定记忆,而GRU则简化为reset和update门控。接着,文章介绍了序列生成,特别是seq-to-seq模型和动态条件生成,其中注意力机制(Attention-based model)在匹配输入和输出序列中起到关键作用。
摘要由CSDN通过智能技术生成

1、RNN with gated machanism

(1)RNN

(2)deep RNN

(3)Bidirectional RNN

(4)Naive RNN

(5)LSTM

因为LSTM中的input c变化是很慢的,所以它能够记得很久之前的内容,不会有太大的变化。

h(t-1)和c(t-1)是上一个LSTM的output。

可以把c(t-1)也放进去。

z(i)决定z这个information能不能够被拿进来使用。z(f)就是决定c(t-1)的information要不要在接下来的output中使用(c(t-1)其实是memory,代表过去的information)。z(o)决定最终的output能不能够出来。

(6)GRU

GRU相比于LSTM,好处是参数比较少。一个是reset gate(r),一个是update gate(z),z有点像forget gate和input gate的角色。GRU中的h类似于LSTM中的c,h的变化是比较小的。GRU里的input gate和forget gate是联动的,一定要有新的东西进来,才会忘掉东西,当你忘掉东西的时候,就会有新的东西进来。

2、sequence generation

(1)generation

(2)condition generation

(1)seq-to-seq

(2)dynamic conditional generation(等价于Attention-based model

α是一个score,表示h和z(key 关键字)有多match,match这个function是由你自己设计。

经softmax后,前两个字的attention weight是0.5,说明此时machine比较关注前两个字。

直到出现<EOS>就结束。

(3)tips for generation

用α代表attention的weight,上标代表attend在哪一个component(组件)上,下标表示是在产生第几个word的时候的weight。但是有时候这样的attention并不好,你需要加给weight加一个regularization。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值