[ THUNLP-MT (7/10) ] Neural Machine Translation by Jointly Learning to Align and Translate | 注意力机制

最新推荐文章于 2022-08-07 10:47:05 发布

只眷恋两小无猜

最新推荐文章于 2022-08-07 10:47:05 发布

阅读量5.6k

点赞数

分类专栏： NLP 文章标签： THUNLP-MT 10

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33387068/article/details/90347345

版权

NLP 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

被引用 6824 次，又是一篇高引用神作。也是紧跟在seq2seq模型原论文，列表中 THUNLP-MT (6/10) ，后面的一篇论文。介绍了现今NLP领域中非常重要的注意力机制。同样介绍注意力机制的论文还有，Luong等人的工作。

论文传送门1 | ICLR 2015; Bahdanau等人
Neural Machine Translation by Jointly Learning to Align and Translate
论文传送门2 | EMNLP 2015; Luong等人
Effective Approaches to Attention-based Neural Machine Translation

文章目录

论文内容（Bahdanau）

核心原理

~~怎么样才说的明白~~
解码器端的隐层状态 $s_i$ 由上一个隐层状态、解码端加权得到的上下文向量 $c_i$ 、上一个状态的目标词 $y_{i-1}$ 得到。

$s_i = f(s_{i-1},y_{i-1},c_i)$
在这里插入图片描述

在这里插入图片描述

实验与分析

》实验
在Bahdanau等人等人的工作中，共训练了两种模型。RNNenc 和 RNNsearch。其中，RNNenc 指的是 Cho 等人的工作(2014)；RNNsearch 则是 Bahdanau 的研究工作。两个模型都分别训练了句子长度等于30和50的两种模型。并且，隐层节点数均为1000，而 RNNenc 并没有使用双向的 RNN 编码器。
实验结果可以发现，RNNsearch模型性能优于RNNenc模型；并且，在句子长度较长时，RNNsearch模型的性能没有显著的下降。
在这里插入图片描述

》分析

soft alignment 的性能要优于 hard alignment。
- soft alignment 指的是在为 t 时刻的输出 y 求上下文向量时，对输入句子的每一个单词都给出一个注意力概率，即一个对齐模型。而 hard alignment 则指的是，直接找出与输出 y 对应的输入句子单词。

相关论文 Luong 2015

Effective Approaches to Attention-based Neural Machine Translation

与 Bahdanau 研究工作的不同
- Luong 使用了多层的 LSTM 结构，用顶层的LSTM表示隐层状态；而 Bahdanau 则是使用双向的RNN结构，在源语言端的隐层状态，由前向和后向的RNN隐层状态拼接得到，并且 RNN 的结构使用了Cho 等人的工作(2014) 提出的 GRU 结构。
- Luong 等人在计算时当前 Attentional Hidden State $\widetilde{h_i}$ 时加入了 $\widetilde{h_{i-1}}$ 进行计算，即将过去的对齐信息用来计算当前解码器隐层状态。而 Bahdanau 等人则是只将前一时刻的隐层状态 $z_{i-1}$ 用来计算解码器的隐层状态中。
- 两种不同的注意力机制：局部注意力机制与全局注意力机制
- 多种对齐打分函数

Luong ( 全局注意力 )
在这里插入图片描述

Bahdanau
在这里插入图片描述

参考资料

只眷恋两小无猜

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。