[EMNLP2015]Effective Approaches to Attention-based Neural Machine Translation

最新推荐文章于 2021-03-10 23:49:36 发布

小妖精Fsky

最新推荐文章于 2021-03-10 23:49:36 发布

阅读量2.9k

点赞数

分类专栏： PaperNotes 文章标签： Paper

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/appleml/article/details/77247460

版权

PaperNotes 专栏收录该内容

77 篇文章 0 订阅

订阅专栏

neural machine translation有以下优点：
(1) 有能力生成很长的词序列
(2) 因为不需要存储巨大的短语词表，所以需要很小的内存
(3) 解码很容易
A：介绍了两种attention模型，其共同点是在每一步decoding时hidden state h $_t$ 都作为输入参与计算c $_t$
(1)global attention
在生成target word y $_t$ 时， input 中的所有词都参与其中
这里写图片描述
上图给出了两条计算路线，上面一条是以往的计算路线，下面的是本文给出的计算路线
(2) local attention
input 中的部分词参与生成 y $_t$
重点是计算p $_t$ , 文章写的很详细，这里不赘述

B：input-feeding Approach
图1和图4中蓝色方框是encoder, 红色部分是decoder, 现在关注的是decoder的输入有变化，在图1中，decoder的当前时刻的input 是前一时刻的输出，而在图4中decoder的当前时刻input除了前一时刻的输出还有前一时刻的隐状态 $\tilde{h} _t$

这里写图片描述

这里写图片描述

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
[EMNLP2015]Effective Approaches to Attention-based Neural Machine Translation

neural machine translation有以下优点： (1) 有能力生成很长的词序列 (2) 因为不需要存储巨大的短语词表，所以需要很小的内存 (3) 解码很容易 A：介绍了两种attention模型，其共同点是在每一步decoding时hidden state ht_t都作为输入参与计算ct_t (1)global attention 在生成target word yt_
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。