Effective Approaches to Attention-based Neural Machine Translation_2015_Luong 【NMT】【Attention】

最新推荐文章于 2021-04-15 21:45:20 发布

阿.荣.

最新推荐文章于 2021-04-15 21:45:20 发布

阅读量229

点赞数

分类专栏：论文笔记文章标签：神经网络

本文链接：https://blog.csdn.net/bmicnj/article/details/107216613

版权

本文详细探讨了Luong等人在2015年提出的两种注意力机制——全局注意力和局部注意力，用于神经机器翻译。全局注意力允许模型关注源句的所有部分，而局部注意力则更聚焦于源句的特定区域，降低了计算成本并保持可微性。实验表明，局部注意力在英德翻译任务中提高了1.0个BLEU点，全局注意力提升了5.0个点，优于传统技术。此外，输入反馈策略增强了模型的性能，使其能够更好地捕捉先前的对齐状态。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文链接：Effective Approaches to Attention-based Neural Machine Translation
By Luong et al. 2015

任务对齐（alignments between different modalities）：对齐是指比如在翻译任务中，翻译每个词的时候，要找多需要重点关注的原句中的词，也就是将原文中的词和目标文中的词对应起来。
对齐权值（alignment weights）：在翻译每个词的时候，需要关注那些encoder状态，关注的强度是多少，有一种打分机制，以前一刻的decoder状态和其中一个encoder状态为参数，输出得分 $score(h_t,\hat{h}_{s})$ ，然后用softmax归一化分值转换为概率，这个概率就是对齐权值。
Soft Attention: 软对齐，就是说encoder中每个词的隐藏层输出 $\hat{h}_{s}$ 都参与了权重的计算，这种方法方便反向传播。
Hard Attention: 就是会依赖encoder隐藏层的概率 $S_i$ 选择部分进行计算，而不是整个encoder隐藏层。但是这种不放不可微想要实现梯度的反向传播，需要采用蒙特卡洛采样的方法估计模块的梯度。

提出背景

最新论文提出开始把注意力机制应用于neural machine translation (NMT)，将注意力有选择地放在部分source sentence上，本文继续探索更好的将注意力机制应用在NMT。

提出两个模型，一个是Global Attention，将注意力放在全部的source sentence上，另一个是Local Attention，每一个时刻下将注意力放在部分source sentence上。Local Attention是融合了soft attention和hard attention，计算成本更小，而且可微（hard attention不可微），更容易实现和训练。

在对英语和德语互译上的实验中，local attention的BLEU值达到25.9，提高了1.0个点，global attention的BLEU值提升了5.0个点，优于当前使用dropout等技术的效果。

神经机器翻译NMT

nmt是一个神经网络，计算将原句 $x_1,x_2,...x_n$ 翻译成目标句 $y_1,y_2,...y_m$ 的条件概率： $p (y ∣ x)$ 。
nmt的基本形式包括（1）encoder：计算source sentence的表示形式。（2）decoder:一次生成一个目标word，常用RNN结构实现。
已有的结构：