论文阅读：Neural Machine Translation By Jointly Learning To Align And Translate-CSDN博客

本文链接：https://blog.csdn.net/Jeremy_lf/article/details/103281779

本文介绍了一种新的神经机器翻译方法，通过联合学习对齐和翻译，解决了长句子翻译的难题。该方法使用双向RNN编码器和带有注意力机制的解码器，能有效处理各种长度的句子，尤其在长句子翻译上表现优异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目：Neural Machine Translation By Jointly Learning To Align And Translate
作者：Dzmitry Bahdanau，KyungHyun Cho， Yoshua Bengio∗
论文地址：https://arxiv.org/abs/1409.0473
1、Introduction

神经机器翻译是机器翻译的一种新兴方法，最近由Kalchbrenner和Blunsom（2013）提出，与传统的基于短语的翻译系统（例如，参见Koehn等人，2003）不同，该系统由许多小的子组件组成。分别进行调整，神经机器翻译尝试构建和训练一个大型的神经网络，该网络可以读取句子并输出正确的翻译。

大部分建议的神经机器翻译模型都属于编码器-解码器家族（Sutskever等，2014； Cho等，2014a），每种语言都有一个编码器和一个解码器，或者涉及一种特定于语言的编码器然后比较每个句子的输出（Hermann和Blunsom，2014年）。编码器神经网络读取源句子并将其编码为固定长度的向量。然后，解码器从编码的矢量输出翻译。由一个语言对的编码器和解码器组成的整个编码器/解码器系统经过联合培训，可以在给定源句子的情况下最大程度地提高正确翻译的可能性。

这种编码器/解码器方法的潜在问题在于，神经网络需要能够将源语句的所有必要信息压缩为固定长度的向量。这可能使神经网络难以应付长句子，尤其是那些比训练语料库中的句子更长的句子。 Cho等。（2014b）表明，随着输入句子长度的增加，基本编码器解码器的性能确实会迅速下降。

为了解决此问题，我们引入了编码器-解码器模型的扩展，该模型学习联合对齐和翻译。提议的模型每次在翻译中生成单词时，都会（软）搜索源句子中最相关信息集中的一组位置。然后，模型基于与这些源位置和所有先前生成的目标词关联的上下文向量来预测目标词。

与基本的编码器/解码器相比，此方法最重要的区别在于，它不会尝试将整个输入语句编码为单个固定长度的向量。取而代之的是，它将输入的句子编码为一系列向量，并在解码翻译时自适应地选择这些向量的子集。这使神经翻译模型不必将源句子的所有信息（无论其长度如何）压缩为固定长度的向量。我们证明这可以使模型更好地应对较长的句子。

在本文中，我们表明，与基本编码器-解码器方法相比，提出的联合学习对齐和翻译（jointly learning to align and translate）的方法可显着提高翻译性能。句子越长，改进越明显，但是任何长度的句子都可以观察到。在英语到法语翻译的任务上，所提出的方法使用单一模型即可实现与传统基于短语的系统相当或接近的翻译性能。此外，定性分析表明，所提出的模型在源句子和相应的目标句子之间找到了语言上合理的（软）对齐方式。

2、BACKGROUND: NEURAL MACHINE TRANSLATION

从概率的角度来看，翻译等同于找到目标句子y，该目标句子y使给定源句子x的y的条件概率最大，即argmaxy p（y | x）。在神经机器翻译中，我们拟合参数化模型，以使用并行训练语料库最大化句子对的条件概率。一旦翻译模型学习了条件分布，给定源句子，就可以通过搜索使条件概率最大化的句子来生成相应的翻译。

最近，许多论文提出了使用神经网络直接学习这种条件分布的方法。这种神经机器翻译方法通常由两个组件组成，其中第一个组件对源语句x进行编码，第二个组件对目标语句y进行解码。例如（Cho等人，2014a）和（Sutskever等人，2014）使用了两个递归神经网络（RNN）将可变长度的源句子编码为固定长度的向量，并将其解码为可变长度的目标句子。

尽管是一种非常新的方法，但神经机器翻译已经显示出令人鼓舞的结果。Sutskever等报告说，基于具有长短期记忆（LSTM）单元的RNN的神经机器翻译在英语到法语翻译上的性能接近传统基于短语的机器翻译系统。 task.1在现有翻译系统中增加了语言成分，例如，对短语表中的短语对进行评分（Cho等，2014a）或对候选翻译进行重新排序（Sutskever等，2014），超越以前的最新性能水平。

2.1 RNN ENCODER–DECODER
在这里插入图片描述
3 LEARNING TO ALIGN AND TRANSLATE

在本节中，我们提出了一种用于神经机器翻译的新颖架构。新架构由双向RNN作为编码器（第3.2节）和解码器组成，该解码器在对翻译进行解码时模拟对源语句的搜索（第3.1节）。
在这里插入图片描述
我们将比对模型a参数化为前馈神经网络，该神经网络与提出的系统的所有其他组件共同训练。请注意，与传统机器翻译不同，对齐方式不被视为潜在变量。取而代之的是，对齐模型直接计算软对齐，从而允许反向传播成本函数的梯度。该梯度可用于联合训练对齐模型以及整个翻译模型。

我们可以理解在计算预期注释时对所有注释进行加权求和的方法，其中预期超出了可能的对齐方式。令αij为目标单词yi与源单词xj对齐或从源单词xj转换过来的概率。然后，第i个上下文向量ci是所有具有概率αij的注释上的期望注释。

概率αij或其关联的能量eij反映了注释hj在确定下一个状态si并生成yi方面相对于上一个隐藏状态si-1的重要性。直观地，这在解码器中实现了一种关注机制。解码器决定源句中要注意的部分。通过让解码器具有注意力机制，我们使编码器免除了必须将源语句中的所有信息编码为固定长度向量的负担。利用这种新方法，信息可以散布在注释的整个序列中，可以相应地由解码器有选择地检索.

3.2 ENCODER: BIDIRECTIONAL RNN FOR ANNOTATING SEQUENCES

通常的RNN，从第一个符号x1到最后一个xTx依次读取输入序列x。但是，在提出的方案中，我们希望每个单词的注释不仅可以概括前面的单词，还可以概括后面的单词。因此，我们建议使用双向RNN（BiRNN，Schuster and Paliwal，1997），该技术最近已成功用于语音识别中（例如，见Graves等人，2013）。
在这里插入图片描述
4 EXPERIMENT SETTINGS

我们评估了英语到法语翻译任务的建议方法。作为比较，我们使用了ACL WMT ’14 .3提供的双语并行语料库，作为比较，我们还报告了Cho等人（2014a）最近提出的RNN编码器-解码器的性能。对于两个模型，我们使用相同的训练过程和相同的数据集。

4.1 DATASET
4.2 MODELS
我们训练两种模型。第一个是RNN编码器解码器（RNNencdec，Cho等，2014a），另一个是建议的模型，我们将其称为RNNsearch。我们对每个模型进行两次训练：首先使用长度不超过30个单词的句子（RNNencdec-30，RNNsearch-30），然后使用长度不超过50个单词的句子（RNNencdec-50，RNNsearch-50）。

RNNencdec的编码器和解码器每个都有1000个隐藏单元。7RNNsearch的编码器由正向和反向递归神经网络（RNN）组成，每个都有1000个隐藏单元。它的解码器有1000个隐藏单元。在这两种情况下，我们都使用具有单个maxout隐藏层的多层网络（Goodfellow等，2013）来计算每个目标词的条件概率（Pascanu等，2014）。

我们将微批次随机梯度下降（SGD）算法与Adadelta（Zeiler，2012）一起使用来训练每个模型。每个SGD更新方向都是使用80个句子的小批量计算的。我们对每个模型进行了大约5天的训练。一旦对模型进行了训练，我们将使用波束搜索来找到使条件概率近似最大化的平移。 Sutskever等。（2014）使用这种方法从他们的神经机器翻译模型生成翻译。
在这里插入图片描述
5 RESULTS

在表1中，我们列出了以BLEU分数衡量的翻译表现。从表中可以清楚地看出，在所有情况下，拟议的RNNsearch均优于常规RNNencdec。更重要的是，当仅考虑由已知单词组成的句子时，RNNsearch的性能与常规的基于短语的翻译系统（Moses）一样高。考虑到Moses除了使用了用于训练RNNsearch和RNNencdec的并行语料库之外，还使用了单独的单语语料库（418M个单词），这是一项重大成就。
在这里插入图片描述
提出的方法背后的动机之一是在基本的编码器-解码器方法中使用固定长度的上下文向量。我们推测此限制可能会使基本的编码器解码器方法在长句子方面表现不佳。在图2中，我们看到RNNencdec的性能随着句子长度的增加而急剧下降。另一方面，RNNsearch-30和RNNsearch-50对句子的长度都更健壮。尤其是RNNsearch-50，即使句子长度为50或更长，也不会表现出性能下降。 RNNsearch-30甚至胜过RNNencdec-50（见表1），这一事实进一步证实了所提出模型相对于基本编码器-解码器的优越性。
在这里插入图片描述