[论文阅读笔记] Massive Exploration of Neural Machine Translation Architectures

最近想要看看Attention的机制,然后被网上博客引到这个论文,想要了解一下NMT(Neural Machine Translation)的架构。这篇paper没有发表在会议上,出自Google Brain,并公开了seq2seq的NMT框架代码。个人觉得文中的结论不太可信,但是对于NMT的介绍还是足够清晰。这里记录一些文中有意思的点,以及一些笔者自己的思考,欢迎指教。

NMT框架

详见文中Section2.1部分。
如下图所示,NMT分为Encoder部分和Decoder部分,中间接了一个Attention用于对Encoder部分的信息进行汇总。
具体地,输入是 [x1,x2,,xm] ,Encoder把输入转换为可用信息 [h1,h2,,hm] 。图中所示的Encoder是Bidirection RNN, hi 中同时具有所有时间切片的信息。
Decoder部分则是输出部分,每次根据之前生成的输出 [y1,y2,,yi1] 以及Attention汇总的Encoder的信息

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值