[论文阅读笔记] Massive Exploration of Neural Machine Translation Architectures

最新推荐文章于 2024-09-03 11:06:54 发布

silent56_th

最新推荐文章于 2024-09-03 11:06:54 发布

阅读量1.3k

点赞数

分类专栏： LSTM 神经网络机器翻译 attention 文章标签：机器翻译注意力神经网络深度学习 Attention

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/silent56_th/article/details/74937479

版权

最近想要看看Attention的机制，然后被网上博客引到这个论文，想要了解一下NMT（Neural Machine Translation）的架构。这篇paper没有发表在会议上，出自Google Brain，并公开了seq2seq的NMT框架代码。个人觉得文中的结论不太可信，但是对于NMT的介绍还是足够清晰。这里记录一些文中有意思的点，以及一些笔者自己的思考，欢迎指教。

NMT框架

详见文中Section2.1部分。
如下图所示，NMT分为Encoder部分和Decoder部分，中间接了一个Attention用于对Encoder部分的信息进行汇总。
具体地，输入是 $[x_1,x_2,\cdots,x_m]$ ，Encoder把输入转换为可用信息 $[h_1,h_2,\cdots,h_m]$ 。图中所示的Encoder是Bidirection RNN， $h_i$ 中同时具有所有时间切片的信息。
Decoder部分则是输出部分，每次根据之前生成的输出 $[y_1,y_2,\cdots,y_{i-1}]$ 以及Attention汇总的Encoder的信息

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。