1、摘要
基于神经网络的机器学习是目前最为流行的一种机器翻译的方法。与传统的统计学翻译不同,这种翻译方式是通过构建一个神经网络来最大限度提升翻译的性能。该模型是encoder–decoders模型家族中的一种。他使用编码器(encoder)将原始句子编码成一个定长向量,然后使用解码器(decoder)来实现翻译。在本文中,我们推测,在encoder–decoder模型架构下,使用定长向量将是提升翻译性能的瓶颈。为了解决这个瓶颈,我们从原始的句子当中检索最为重要的子句来实施编码解码,而不是通过现在这种硬性分割的方式。通过这种新的方法,在英语到法语的翻译任务中,我们将模型性能提升与state-of-the-artphrase-based 系统相同的水平。此外,性能分析系统还显示,这种软对齐的方式与我们的直观感受非常的契合。
2、神经网络机器翻译的背景知识
从概率学的角度来讲,翻译要做的事情就是在给定原句子 X的情况下,找到能使条件概率P(Y|X)达到最大值的目标句子y。在神经网络翻译中,我们是通过训练一个参数化模型来完成相同的工作。一旦这种条件概率分布被翻译模型学习到,那么我们就可以通过模型对给定的语句进行翻译。
目前,有很多专关于神经网络直接通过训练学习条件概率分布的论文发表。比如(Kalchbrenner and Blunsom, 2013; Cho et al., 2014a; Sutskever et al.,2014; Cho et al., 2014b)神经网络翻译模型有两个最为主要的组件:编码器(encoder)与解码器(decoder),分别负责对原始句子的编码以及对目标句子的解码。有一种典型应用就是将变长的句子首先编码成定长的向量然后在解码成变长的目标语句。
尽管这是一种新的方案,但模型的整体表现还是很优秀的。Sutskever et al. (2014)的这篇论文显示,在英语到法语的翻译工作中。使用lstm单元的rnn翻译模型已经达到了传统的state-of-the-art翻译系统的水平。
2.1 RNN encoder-decoder
首先需要介绍一下模型的基本框架: rnn encoder-decoder,我们在这个框架的基础上来创新性的构建我们的对齐以及翻译模型。在该模型中编码器读取要翻译的句子,该句子是由一组向量序列组成的,可以将其表示为将其编码成一个向量c,这个工作一般是由RNN模型来完成的。我们可以将编码过程表示如下