【论文笔记】Neural Machine Translation by Jointly Learning to Align and Translate

最新推荐文章于 2023-12-22 16:11:54 发布

我从崖边跌落

最新推荐文章于 2023-12-22 16:11:54 发布

阅读量1.3w

点赞数 7

分类专栏：论文笔记神经网络文章标签： encoder-decoder attention NLP

本文链接：https://blog.csdn.net/qq_20135597/article/details/83758013

版权

Neural Machine Translation by Jointly Learning to Align and Translate

--这篇论文算是在自然语言处理(NLP)中或是encoder-decoder中第一个使用attention机制的工作，将attention机制用到了神经网络机器翻译(NMT) 。

Abstract 神经机器翻译是最近提出的一种机器翻译的方法。不像传统的统计机器翻译，神经机器翻译的目标是建立一个单个的神经网络，可以共同调整，以最大限度地提高翻译性能。最近提出的神经翻译通常属于编码器-解码器（encoder-decoder）和解码器将一个目标序列编码为固定长度的向量，解码器从这些向量中生成译文。在本文中，我们推测定长向量的使用是一个提高基本的编码器-解码器框架性能的瓶颈，并提出了允许模型（软）搜索原句中与预测目标词相关的部分，不必将这些部分显示分割。通过这种新的方法，我们可以达到与现有的最先进的基于短语的英法翻译系统相当的翻译效果。此外，定性实验发现模型的（软）对齐方式和我们的直觉是一致的。

1 Introduction

神经网络机器翻译是2013年和2014年新提出来的一种机器翻译的方法。不同于传统的基于段的翻译系统--由很多被分别调优的小子部件组成，神经机器翻译的目标是建立并训练一个可以读取一个句子并输出正确的翻译的单一的、大型的的神经网络。

很多提出的神经机器翻译都属于encoder-decoder，每种语言有一个编码器和解码器，或者是将某个特定语言的编码器应用在某个句子上，并比较它们的输出。一个解码神经网络读取和编码一个原序列为一个定长的向量。解码器输出编码向量的翻译。整个encoder-decoder系统，是由一个语言对的编码器和解码器组成的，它可以被整合训练来提高给定源句被正确翻译的概率。（encoder-decoder的工作机制）

这种encoder-decoder方法有一个潜在的问题是，神经网络需要将源句所有的必要信息压缩成定长的向量。这可能使神经网络难以处理长句子，尤其是那些比训练语料库中更长的句子。Cho（2014）发现，随着输入句子长度的增加，基本的encoder-decoder的性能会迅速下降。（encoder-decoder的缺点是难以处理长句子）

为了解决这一问题，我们引入了一种对encoder-decoder模型的拓展。每当生成的模型在翻译中生成一个单词的时候，它会（软）搜索源句中最相关信息集中的位置。然后，该模型根据与源句位置相关的上下文向量和之前产生的所有目标词来预测目标词。（引入attention机制处理长句子）

这些方法与基本的encoder-decoder最大的区别是它不试图将整个输入序列编码成一个定长的向量。相反，它将输入序列编码成向量，然后当解码翻译的时候自适应地选择向量的子集。这使得神经翻译模型避免把源句的所有信息，不管它的长度，压扁成一个定长的向量。我们发现这可以让模型更好的处理长句子。（改进的模型与原来的区别）

在论文中，我们证明了提出地对齐和翻译联合学习的方法比基本的encoder-decoder模型在翻译性能上有显著提升。这样的提升句子越长，效果越明显，但任何长度的句子都能看到（改进）。在英法翻译任务上，提出的方法在单一的模型下实现了翻译性能相当或接近传统的基于短语的翻译系统。除此之外，数量分析揭示了提出的模型找到了一种语言学上可信的/源句和对应的目标句之间的（软）排列。

2 背景：神经机器翻译

从概略学的角度看，翻译等价于找到给定的源句x时最大的条件概率y对应的目标句y， $arg{max}_{y}P(y|x)$ 。在神经机器翻译中，我们使用并行训练语料库来拟合参数化模型，以最大化句子对的条件概率。一旦翻译模型学到了条件分布，给定源句对应的翻译可以通过搜索能最大化条件概率的句子得到。

最近，一些论文已经提出了神经网络的作用就是直接学习条件分布。神经机器翻译方法通常由两个部分组成，第一个是编码原序列，第二个是解码到目标序列。例如，Cho和Sutskever（2014）分别采用两个RNN将可变源句编码为定长向量以及将该向量解码为变长的目标句。

尽管作为一种比较新的方法，神经机器翻译早已经便显出良好的效果。Sutskever（2014）报道了基于使用了LSTM单元的RNN神经机器翻译在英法翻译任务上已经相当于最先进性能的传统基于短语的机器翻译系统。例如，对现有的翻译系统增加神经组件，以对短语表中的短语对进行评分或对候选翻译进行重新排序，已经超过了以前最先进的性能水平。

2.1 RNN encoder-decoder

encoder将向量x的序列

最低0.47元/天解锁文章

我从崖边跌落

关注

7
点赞
踩
59

收藏

觉得还不错? 一键收藏
3
评论
【论文笔记】Neural Machine Translation by Jointly Learning to Align and Translate

Neural Machine Translation by Jointly Learning to Align and Translate --这篇论文算是在自然语言处理(NLP)中或是encoder-decoder中第一个使用attention机制的工作，将attention机制用到了神经网络机器翻译(NMT) 。Abstract 神经机器翻译是最近提出的一种机器翻译的方法。不像传统...
复制链接

扫一扫