目录
Abstract
Deep Neural Networks (DNNs) are powerful models that have achieved excellent performance on difficult learning tasks. Although DNNs work well whenever large labeled training sets are available, they cannot be used to map sequences to sequences. In this paper, we present a general end-to-end approach to sequence learning that makes minimal assumptions on the sequence structure. Our method uses a multilayered Long Short-Term Memory (LSTM) to map the input sequence to a vector of a fixed dimensionality, and then another deep LSTM to decode the target sequence from the vector. Our main result is that on an English to French translation task from the WMT’14 dataset, the translations produced by the LSTM achieve a BLEU score of 34.8 on the entire test set, where the LSTM’s BLEU score was penalized on out-of-vocabulary words. Additionally, the LSTM did not have difficulty on long sentences. For comparison, a phrase-based SMT system achieves a BLEU score of 33.3 on the same dataset. When we used the LSTM to rerank the 1000 hypotheses produced by the aforementioned SMT system, its BLEU score increases to 36.5, which is close to the previous best result on this task. The LSTM also learned sensible phrase and sentence representations that are sensitive to word order and are relatively invariant to the active and the passive voice. Finally, we found that reversing the order of the words in all source sentences (but not target sentences) improved the LSTM’s performance markedly, because doing so introduced many short term dependencies between the source and the target sentence which made the optimization problem easier.
翻译
也就是使用一个多层LSTM去编码序列,然后再用另外一个LSTM去解码目标序列。
深度神经网络是在困难学习任务中,取得卓越性能的强大模型,尽管拥有大量标记训练集,DNN能很好地工作,但是它们并不能用于将序列映射到序列。在文本中,我们提出了一种通用的端到端序列学习方法。其对序列结构做出最小的假设,我们的方法使用多层长短期记忆网络(LSTM)。
将输入序列映射到一个固定维度向量,然后使用另一个深层LSTM从向量中解码目标序列。
我们的主要结果是在WMT 14数据集的英法翻译任务中,LSTM翻译在整个测试集中获得了34.8分的BLEU分数。而LSTM的BLEU分数在词汇外的单词上被扣分。此外,LSTM在长句上没有困难,
相比之下,基于短语的SMT在同一数据集上BLEU得分为33.3.当我们使用LSTM对上述系统产生的1000个假设进行重新排序时,它的BLEU分数增加到36.5,这接近于之前这项任务中的最佳效果,
LSTM还学会了对词序敏感,并且对主动语态和被动语态相对不变的有意义的短语和句子表达。最后,我们发现颠倒所有源句(而不是目标句)中单词的顺序显著提高了LSTM的表现,因为这样做在源句和目标句之间引入了许多短期依赖性,使得优化问题变得更容易。
单词解释
Deep Neural Networks DNN、
on difficult learning tasks. 在困难学习任务中。
large labeled training sets 大量标签训练集。
map sequences to sequences. 将序列映射到序列
general end-to-end approach to sequence learning 端到端学习方法。
sequence structure 序列结构
a multilayered Long Short-Term Memory (LSTM) 多层长短期记忆网络
a vector of a fixed dimensionality 固定维度向量。
out-of-vocabulary words 词汇外的单词。
the previous best result on this task 这项任务的最佳效果。
t reversing the order of the words in all source sentences 颠倒所有源句单词的顺序。
many short term dependencies 短期依赖性
技术解读
短期依赖性—先不管的,然后慢慢的开始研究透彻再说其他的样子与打算。
Introduction
原文
Deep Neural Networks (DNNs) are extremely powerful machine learning models that achieve excellent performance on difficult problems such as speech recognition [13, 7] and visual object recognition [19, 6, 21, 20]. DNNs are powerful because they can perform arbitrary parallel computation for a modest number of steps. A surprising example of the power of DNNs is their ability to sort N N-bit numbers using only 2 hidden layers of quadratic size [27]. So, while neural networks are related to conventional statistical models, they learn an intricate computation. Furthermore, large DNNs can be trained with supervised backpropagation whenever the labeled training set has enough information to specify the network’s parameters. Thus, if there exists a parameter setting of a large DNN that achieves good results (for example, because humans can solve the task very rapidly), supervised backpropagation will find these parameters and solve the problem.
翻译
深度神经网络是非常强大的机器学习模型,它在语音识别[13,7]和视觉目标识别[19,6,21,20]等难题上取得卓越的性能。DNNs非常强大,因为它们可以执行任意并行计算的步骤比较少。DNN强大功能的一个令人惊讶的例子是,它们能够只使用2个二次大小的隐藏层来分类N比特数[27]。因此,虽然神经网络与传统的统计模型相关,但它们学习的是复杂的计算。此外,只要标记的训练集有足够的信息来指定网络的参数,就可以用监督的反向传播来对大型的DNN训练。因此,如果存在获得良好结果的大DNN的参数设置(例如,因为人类可以非常快速地解决任务),则监督反向传播将找到这些参数并解决问题。
单词积累
arbitrary parallel computation for a modest number of steps. 执行任意并行计算的步骤比较少。
intricate computation 复杂计算
supervised backpropagation 监督反向传播
原文
Despite their flexibility and power, DNNs can only be applied to problems whose inputs and targets can be sensibly encoded with vectors of fixed dimensionality. It is a significant limitation, since many important problems are best expressed with sequences whose lengths are not known a-priori. For example, speech recognition and machine translation are sequential problems. Likewise, question answering can also be seen as mapping a sequence of words representing the question to a 1 sequence of words representing the answer. It is therefore clear that a domain-independent method that learns to map sequences to sequences would be useful.
翻译
尽管DNN具有灵活性和强大的功能,但它适用于输入和目标可以用固定维数的向量进行合理编码的问题。这有很明显的局限性,因为许多重要的问题最好是能够用长度未知的序列来表达。例如,语音识别和机器翻译是连续的问题。同样,问题回答也可以看作是将将表示问题的单词序列映射到表示答案的单词序列。因此,很明显,学习将序列映射到序列的与域无关的方法将是有用的。
单词解释
vectors of fixed dimensionality 固定维数的向量、
a significant limitation, 明显的局限性。
a domain-independent method 与域无关的方法。
表示问题的单词序列映射到表示答案的单词序列。
原文
Sequences pose a challenge for DNNs because they require that the dimensionality of the inputs and outputs is known and fixed. In this paper, we show that a straightforward application of the Long Short-Term Memory (LSTM) architecture [16] can solve general sequence to sequence problems. The idea is to use one LSTM to read the input sequence, one timestep at a time, to obtain large fixed dimensional vector representation, and then to use another LSTM to extract the output sequence from that vector (fig. 1). The second LSTM is essentially a recurrent neural network language model [28, 23, 30] except that it is conditioned on the input sequence. The LSTM’s ability to successfully learn on data with long range temporal dependencies makes it a natural choice for this application due to the considerable time lag between the inputs and their corresponding outputs (fig. 1)
翻译
序列对DNN来说是一个挑战,因为它们要求输入和输出的维数是已知并且是固定的。在本文中,我们展示了长短期记忆网络(LSTM)架构[16]的直接应用可以解决一般序列到序列的问题。想法是使用一个LSTM来读取输入序列,一次一步,以获得大的固定维向量表示,然后使用另一个LSTM来从该向量中提取输出序列(图1)。第二个LSTM本质上是一个递归神经网络语言模型[28,23,30]除了它是以输入序列为条件。由于输入和相应输出之间存在相当大的时间延迟,LSTM成功学习具有长期时间依赖性的数据的能力使其成为该应用的自然选择(图1)。
单词解释
the dimensionality of the inputs and outputs 输入和输出的维度
a straightforward application 直接应用
sequence to sequence problems. 序列到序列问题。
one timestep at a time 一次一步
large fixed dimensional vector representation 大的固定维度向量表示。
a recurrent neural network language model [ 本质上是一个递归神经网络模型
with long range temporal dependencies 大范围的时间延迟。
序列到序列说白了都是词语到词语,比如英文到法语。
长时间延迟,长期时间依赖性。
原文
There have been a number of related attempts to address the general sequence to sequence learning problem with neural networks. Our approach is closely related to Kalchbrenner and Blunsom [18] who were the first to map the entire input sentence to vector, and is related to Cho et al. [5] although the latter was used only for rescoring hypotheses produced by a phrase-based system. Graves [10] introduced a novel differentiable attention mechanism that allows neural networks to focus on different parts of their input, and an elegant variant of this idea was successfully applied to machine translation by Bahdanau et al. [2]. The Connectionist Sequence Classification is another popular technique for mapping sequences to sequences with neural networks, but it assumes a monotonic alignment between the inputs and the outputs [11].
翻译
已经有许多相关的尝试来解决用神经网络排序学习问题的一般顺序。我们的方法与卡尔奇布伦纳和布伦森·[[18]密切相关,他们是第一个将整个输入句子映射到向量的人,并且与乔等人有关。[5]尽管后者仅用于重新证明基于短语的系统产生的假设。格雷夫斯·[10]引入了一种新颖的可区分注意机制,这种机制允许神经网络聚焦于输入的不同部分,这一思想的一个优雅变体被巴赫达诺等人成功地应用于机器翻译。[2]。连接序列分类是用神经网络将序列映射到序列的另一种流行技术,但是它假设输入和输出之间单调对齐,[11]。
单词解释
a number of related attempts 相关尝试
a novel differentiable attention mechanism 新颖的可区分的注意力机制。
neural networks to focus on different parts of their input, 神经网络聚焦于输入的不同部分。
a monotonic alignmen 单调对齐。

Our model reads an input sentence “ABC” and produces “WXYZ” as the output sentence. The model stops making predictions after outputting the end-of-sentence token. Note that the LSTM reads the input sentence in reverse, because doing so introduces many short term dependencies in the data that make the optimization problem much easier. (使得优化问题更加容易)
原文
The main result of this work is the following. On the WMT’14 English to French translation task, we obtained a BLEU score of 34.81 by directly extracting translations from an ensemble of 5 deep LSTMs (with 384M parameters and 8,000 dimensional state each) using a simple left-to-right beamsearch decoder. This is by far the best result achieved by direct translation with large neural networks. For comparison, the BLEU score of an SMT baseline on this dataset is 33.30 [29]. The 34.81 BLEU score was achieved by an LSTM with a vocabulary of 80k words, so the score was penalized whenever the reference translation contained a word not covered by these 80k. This result shows that a relatively unoptimized small-vocabulary neural network architecture which has much room for improvement outperforms a phrase-based SMT system.
翻译
这项工作的主要成果如下。在WMT的14个英法翻译任务中,我们通过使用简单的从左到右波束搜索解码器直接从5个深度的LSTMs(每个深度LSTMs具有384M参数和8000维状态)的集合中提取翻译,获得了34.81的BLEU分数。这是迄今为止用大型神经网络直接翻译获得的最佳结果。相比之下,在该数据集上SMT基准的BLEU分数为33.30 [29]。34.81 BLEU分数是由一个拥有80k单词词汇量的LSTM人获得的,因此每当参考译文包含这80k单词未涵盖的单词时,该分数就会被扣分。该结果表明,相对未优化的小词汇量神经网络体系结构比基于短语的SMT系统具有更大的改进空间。
单词解释
The main result of this work 这项工作的主要成果、
384M参数和8000维状态。
a relatively unoptimized small-vocabulary neural network 相对于味优化的小词汇量参数。
a phrase-based SMT system. 基于短语的SMT系统
技术解读
基于短语的SMT系统。SMT统计机器翻译。
原文
Finally, we used the LSTM to rescore the publicly available 1000-best lists of the SMT baseline on the same task [29]. By doing so, we obtained a BLEU score of 36.5, which improves the baseline by 3.2 BLEU points and is close to the previous best published result on this task (which is 37.0 [9]). Surprisingly, the LSTM did not suffer on very long sentences, despite the recent experience of other researchers with related architectures [26]. We were able to do well on long sentences because we reversed the order of words in the source sentence but not the target sentences in the training and test set. By doing so, we introduced many short term dependencies that made the optimization problem much simpler (see sec. 2 and 3.3). As a result, SGD could learn LSTMs that had no trouble with long sentences. The simple trick of reversing the words in the source sentence is one of the key technical contributions of this work.。
翻译
最后,我们利用LSTM重新获得了在同一任务中可公开获得的1000个最佳工管基准列表[29]。通过这样做,我们获得了36.5分的BLEU分数,这将基准提高了3.2个BLEU点,并且接近于之前关于该任务的最佳发表结果(即37.0 [9])。
令人惊讶的是,LSTM没有在很长的句子受到影响,尽管其他研究人员最近有相关结构的经验[26]。我们能够在长句上做得很好,因为我们颠倒了源句中的单词顺序,而不是训练和测试集中的目标句。通过这样做,我们引入了许多短期依赖性,这使得优化问题变得简单得多(参见第节)。2和3.3)。因此,SGD可以学习没有长句子问题的LSTMs。颠倒源句中单词的简单技巧是这项工作的关键技术贡献之一。(颠倒原句中的单词顺序)
原文
A useful property of the LSTM is that it learns to map an input sentence of variable length into a fixed-dimensional vector representation. Given that translations tend to be paraphrases of the source sentences, the translation objective encourages the LSTM to find sentence representations that capture their meaning, as sentences with similar meanings are close to each other while different 2 sentences meanings will be far. A qualitative evaluation supports this claim, showing that our model is aware of word order and is fairly invariant to the active and passive voice.
翻译
LSTM的一个有用的特性是它学会将可变长度的输入句子映射成固定维向量表示。鉴于翻译往往是源句的释义,翻译目标鼓励LSTM寻找能捕捉其意义的句子表征,因为具有相似意义的句子彼此接近而不同句子的意义会相差很远。一项定性评估支持了这一说法,表明我们的模型知道词序,并且对主动语态和被动语态相当不变。(映射为固定维向量表示)
单词解释
A useful property 有用的特性
an input sentence of variable length 可变长度句子
fixed-dimensional vector representation. 固定维度向量表示。
Given that translations 鉴于翻译
paraphrases 释义
the translation objective 翻译的目标
sentence representations that capture their meaning, 捕捉其意义的句子表示。
. A qualitative evaluation 一项定性评估。 word orde 词序。
he active and passive voice. 对主动语态和被动语态。
翻译 目标:鼓励LSTM寻找能捕捉其意义的句子表征。
具有相似意义的句子彼此接近,而不同句子的意义则会相差很远。
原文
Model
递归神经网络(RNN) [31,28]是前馈神经网络对序列的自然推广。给定输入序列(x1,… , xT),标准RNN计算输出序列(y1,… ,yT)通过迭代以下等式:
The Recurrent Neural Network (RNN) [31, 28] is a natural generalization of feedforward neural networks to sequences. Given a sequence of inputs (x1, . . . , xT ), a standard RNN computes a sequence of outputs (y1, . . . , yT ) by iterating the following equation:(迭代以下等式_

原文
The RNN can easily map sequences to sequences whenever the alignment between the inputs the outputs is known ahead of time. However, it is not clear how to apply an RNN to problems whose input and the output sequences have different lengths with complicated and non-monotonic relation ships.
The simplest strategy for general sequence learning is to map the input sequence to a fixed-sized vector using one RNN, and then to map the vector to the target sequence with another RNN (this approach has also been taken by Cho et al. [5]). While it could work in principle since the RNN is provided with all the relevant information, it would be difficult to train the RNNs due to the resulting long term dependencies (figure 1) [14, 4, 16, 15]. However, the Long Short-Term Memory (LSTM) [16] is known to learn problems with long range temporal dependencies, so an LSTM may succeed in this setting.
翻译
只要提前知道输入和输出之间的对齐,RNN就可以轻松地将序列映射到序列。然而,还不清楚如何将RNN应用于输入和输出序列具有不同长度且具有复杂和非单调关系的问题。
通用序列学习的最简单策略是使用一个RNN将输入序列映射到固定大小的向量,然后使用另一个RNN将向量映射到目标序列(这种方法也被Cho等人采用。[5])。虽然它原则上是可行的,因为向RNN提供了所有相关信息,但由于由此产生的长期依赖关系,很难训练区域网络(图1) [14、4、16、15]。然而,众所周知的是长短期记忆网络(LSTM) [16]学习长期时间依赖的问题,因此LSTM可能在这种情况下取得成功。
单词解释
complicated and non-monotonic relation ships. 具有复杂而非单调关系的问题。
long range temporal dependencies, 长期时间依赖问题。
输入和输出之间对齐。
原文
The goal of the LSTM is to estimate the conditional probability p(y1, . . . , yT′ |x1, . . . , xT ) where (x1, . . . , xT ) is an input sequence and y1, . . . , yT′ is its corresponding output sequence whose length T ′ may differ from T . The LSTM computes this conditional probability by first obtaining the fixeddimensional representation v of the input sequence (x1, . . . , xT ) given by the last hidden state of the LSTM, and then computing the probability of y1, . . . , yT′ with a standard LSTM-LM formulation whose initial hidden state is set to the representation v of x1, . . . , xT :
翻译
LSTM的目标是估计条件概率p(y1,…,yT’| x1,… ,xT)其中(x1,… ,xT)是输入序列,y1,…yT’为其对应的输出序列, 其长度T’可能与T不同,LSTM通过首先获得输入序列(x1,…,xT)由LSTM的最后一个隐藏状态给出,然后计算y1,… ,yT’,其初始隐藏状态被设置为x1,… ,xT:

原文
In this equation, each p(yt|v, y1, . . . , yt−1) distribution is represented with a softmax over all the words in the vocabulary. We use the LSTM formulation from Graves [10]. Note that we require that each sentence ends with a special end-of-sentence symbol “”, which enables the model to define a distribution over sequences of all possible lengths. The overall scheme is outlined in figure 1, where the shown LSTM computes the representation of “A”, “B”, “C”, “” and then uses this representation to compute the probability of “W”, “X”, “Y”, “Z”, “”.
翻译
在这个等式中,每个p(yt|v,y1,… yt-1)分布用词汇表中所有单词的softmax表示。我们使用格雷夫斯[10]的LSTM公式。请注意,我们要求每个句子都以一个特殊的句尾符号“< EOS >”结尾,这使得模型能够定义所有可能长度序列的分布。总体方案如图1所示,图中所示的LSTM计算“A”、“B”、“C”、“< EOS >”的表示,然后使用该表示计算“W”、“X”、“Y”、“Z”、“< EOS >”的概率。
技术
句尾符号<EOS>结尾,定义所有可能长度序列的分布。
单词解释
define a distribution over sequences of all possible lengths
定义所有可能长度序列的分布。
原文
Our actual models differ from the above description in three important ways. First, we used two different LSTMs: one for the input sequence and another for the output sequence, because doing so increases the number model parameters at negligible computational cost and makes it natural to train the LSTM on multiple language pairs simultaneously [18]. Second, we found that deep LSTMs significantly outperformed shallow LSTMs, so we chose an LSTM with four layers. Third, we found it extremely valuable to reverse the order of the words of the input sentence. So for example, instead of mapping the sentence a, b, c to the sentence α, β, γ, the LSTM is asked to map c, b, a to α, β, γ, where α, β, γ is the translation of a, b, c. This way, a is in close proximity to α, b is fairly close to β, and so on, a fact that makes it easy for SGD to “establish communication” between the input and the output. We found this simple data transformation to greatly improve the performance of the LSTM.
翻译
我们的实际模型在三个重要方面不同于上面的描述。首先,我们使用了两种不同的LSTM:一种用于输入序列,另一种用于输出序列,因为这样做以可以忽略的计算成本增加了模型参数的数量,并且使得在多种语言对上同时训练LSTM变得很自然[18]。第二,我们发现deep LSTMs明显优于shallow LSTMs,所以我们选择了一个有4层的LSTM。第三,我们发现颠倒输入句子的单词顺序非常有价值。因此,举例来说,不是把句子a、b、c映射到句子α、β、γ,而是要求LSTM把c、b、a映射到α、β、γ,其中α、β、γ是a、b、c的翻译。这样,a非常接近α,b非常接近β,以此类推,这使得SGD很容易在输入和输出之间“建立通信”。我们发现这种简单的数据转换大大提高了LSTM的性能。
忽略计算成本增加了模型参数的数量、
实验
我们以两种方式将我们的方法应用于WMT14英语到法语的机器翻译任务中。我们用它来直接翻译输入的句子,而不使用引用的SMT系统,我们用它来重新存储SMT基准的n个最佳列表。我们报告这些翻译方法的准确性,呈现示例翻译,并可视化结果句子表示。
数据集详细信息
我们使用了WMT14英语到法语数据集。我们对我们的模型进行了12M感知子集的训练,该子集由348M法语单词和304M英语单词组成,这是[29]的一个干净的“精选”子集。我们选择此翻译任务和此特定训练集子集,是因为标记化训练和测试集以及基准SMT [29]中的1000个最佳列表可供公众使用。
由于典型的神经语言模型依赖于每个单词的向量表示,我们对两种语言都使用了固定的词汇。我们对源语言使用了160000个最频繁的单词,对目标语言使用了80000个最频繁的单词。每个词汇外的单词都被一个特殊的“UNK”标记代替。
解码和 重新评分
我们实验的核心是在许多句子对上训练一个大而深的LSTM。我们通过最大化给定源句子的正确翻译的对数概率来训练它,所以训练目标是
此处S是训练集, 训练完成后,我们会根据LSTM的说法,通过寻找最有可能的翻译来进行翻译:

我们使用简单的从左到右波束搜索解码器来搜索最可能的翻译,该解码器维护少量的部分假设B,其中部分假设是一些翻译的前缀。在每个时间步长中,我们用词汇中的每一个可能的单词来扩展波束中的每一个部分假设。这极大地增加了假设的数量,因此我们根据模型的对数概率丢弃除了最有可能的假设B之外的所有假设。一旦“< EOS >”符号被附加到一个假设上,它就从波束中移除,并被添加到一组完整的假设中。虽然这个解码器是近似的,但实现起来很简单。有趣的是,我们的系统即使在波束大小为1的情况下也表现良好,而波束大小为2的情况提供了波束搜索的大部分好处(表1)。
我们还利用LSTM重新获得了基准系统[29]产生的1000个最佳列表。为了重新获得n-best列表,我们用我们的LSTM计算了每个假设的对数概率,并用他们的分数和LSTM的分数取了一个平均分。
反转源语句
虽然LSTM能够解决具有长期依赖关系的问题,但是我们发现,当源语句被反转(目标语句没有反转)时,LSTM学习得更好。通过这样做,LSTM的测试perplexity从5.8下降到4.7,其解码翻译的测试BLEU分数从25.9增加到30.6。
虽然我们对这一现象没有一个完整的解释,但我们认为这是由于对数据集引入了许多短期依赖关系造成的。通常,当我们把源句和目标句连接起来时,源句中的每个单词都与目标句中的对应单词相差很远。因此,该问题具有很大的“最小时间延迟”[17]。通过颠倒源句中的单词,保持源语言中对应单词与目标语言的平均距离不变。然而,源语言中的前几个单词现在与目标语言中的前几个单词非常接近,因此问题的最小时间延迟大大减少。因此,反向传播更容易在源句和目标句之间“建立通信”,从而大大提高了整体性能。
起初,我们认为颠倒输入句子只会导致目标句子早期部分更有信心的预测,而后期部分的预测则不那么有信心。然而,在反转源句上训练的学习者在长句上比学习者做得好得多接受原始源句子的训练(参见第节)。3.7),这表明颠倒输入句子会导致更好的记忆利用。
训练详情
我们发现LSTM模型很容易训练。我们使用了对4层layers的深度LSTMs,每层有1000个单元,1000维单词嵌入,输入词汇为160000,输出词汇为80000。因此,深层LSTM使用8000个实数来表示一个句子。我们发现deep LSTM明显优于shallow LSTMs,shallow LSTMs中每增加一层,困惑就减少了近10%,这可能是因为它们的隐藏状态要大得多。我们在每次输出中使用了超过80000个单词的softmax。由此产生的LSTM有384M参数,其中64M是纯循环连接(32M用于“编码器”LSTM,32M用于“解码器”LSTM)。完整的训练详情如下:
我们用-0.08和0.08之间的均匀分布初始化了所有LSTM参数
我们使用无动量的随机梯度下降,固定学习率为0.7。五个epoch之后,我们开始每半个epoch将学习率减半。我们总共使用7.5个epoch训练我们的模型。
我们对梯度使用了128个序列的批次,并将其除以批次的大小(即128)。
虽然LSTMs往往不会遇到梯度消失的问题,但它们可能会出现爆炸梯度。因此,当梯度[10,25]的范数超过阈值时,我们通过缩放它来对其范数施加硬约束。对于每个训练批次,我们计算s = ||g||2,其中g是梯度除以128。如果s > 5,我们设置g = 5g / s。
不同的句子有不同的长度。大多数句子很短(例如,长度为20-30),但是一些句子很长(例如,长度大于100),因此由128个随机选择的训练句子组成的minibatch将具有许多短句和很少长句,结果,minibatch中的大部分计算被浪费了。为了解决这个问题,我们确保minibatch中的所有句子长度大致相同,速度提高了2倍。
并行化
一个c++实现的深层LSTM配置从上一节对一个GPU处理速度约1700字每秒。这对于我们的目的来说太慢了,所以我们使用8-GPU机器并行化我们的模型。LSTM的每一层都是在不同的GPU上执行的,一旦计算完成,就把它的激活传递给下一层GPU /层。我们的模型有4层LSTMs,每一层都位于一个单独的GPU上。剩下的4个GPU用于并行化softmax,因此每个GPU负责乘以一个1000×20000矩阵。最终实现的速度达到每秒6300个单词(包括英语和法语),小批处理大小为128。实施这一计划花了大约十天的时间进行训练。
实验结果
我们使用[24]的案例BLEU评分来评估我们的翻译质量。我们用标记化预测和地面实况计算了我们的BLEU分数。这种评估BELU分数的方法与[5]和[2]相一致,并且复制了[29]的33.3分。然而,如果我们以这种方式评估最好的WMT14系统9,我们得到37.0,这比statmt.org\matrix报告的35.8大。
结果见表1和表2。我们的最佳结果是通过一组LSTMs获得的,这些LSTMs的随机初始化和小批次的随机顺序不同。虽然LSTM集成的解码翻译并不优于最好的WMT14系统,但这是第一次在大规模MT任务中,一个纯神经翻译系统在很大程度上超过基于短语的SMT基准,尽管它无法处理词汇表外的单词。如果使用LSTM重新确定基准系统的1000个最佳列表,则LSTM距离最佳WMT14结果的0.5个BLEU点以内。
相关工作
关于神经网络在机器翻译中的应用,有大量的工作要做。迄今为止,应用RNN语言模型的最简单和最有效的方法是[23]或任务的前馈神经网络语言模型(NNLM) [3]是通过重新存储强机器翻译基准的n-最佳列表[22],这可靠地提高了翻译质量。
最近,研究人员开始研究将源语言信息纳入NNLM的方法。这项工作的例子包括Auli等人。[1],他将NNLM和输入句子的主题模型结合起来,这提高了重写性能。Devlin等人[8]也采用了类似的方法,但是他们把他们的NNLM输入到机器翻译系统的解码器中,并使用解码器的对齐信息为NNLM提供输入句子中最有用的单词。他们的方法非常成功,比基准有了很大的改进。
我们的工作与卡尔奇布伦纳(Kalchbrenner)和布伦森·[(Blunsom 18)关系密切,他们是第一个将输入句子映射成向量,然后再映射回句子的人,尽管他们使用卷积神经网络将句子映射到向量,这种网络会丢失单词的排序。类似于这项工作,Cho等人。[5]使用类似LSTM的RNN架构将句子映射成向量,然后再映射回来,尽管他们的主要关注点是将他们的神经网络集成到一个SMT系统中。Bahdanau等人[2]还尝试用神经网络进行直接翻译,该神经网络使用注意机制来克服赵等人在长句上表现不佳的问题。[5]并取得了令人鼓舞的成果。同样,Pouget-Abadie等人。[26]试图解决赵等人的记忆问题。[5]通过翻译源句子的片段来产生流畅的翻译,这类似于基于短语的方法。我们怀疑他们可以通过简单地训练他们的网络使用反源句来实现类似的改进。
端到端训练也是赫尔曼等人关注的焦点。[12],其模型代表前馈网络的输入和输出,并将它们映射到空间中的相似点。然而,他们的方法不能直接生成翻译:为了得到翻译,他们需要在预先计算好的句子数据库中查找最接近的向量,或者重写一个句子。
结论
在这项工作中,我们展示了一个大而深的LSTM,它的词汇量有限,而且几乎没有对问题结构作出任何假设,在大规模机器翻译任务中,它的词汇量可以超过一个标准的基于表面贴装技术的系统。我们基于LSTM的简单方法在机器翻译上的成功表明,如果他们有足够的训练数据,它应该在许多其他序列学习问题上做得很好。
我们对通过颠倒源句中的单词所获得的改善程度感到惊讶。我们的结论是,找到一个短期依赖性最大的编码问题是很重要的,因为它们使学习问题变得简单得多。特别是,虽然我们不能在非反向翻译问题上训练标准的RNN(如图1所示),但我们相信当源句反向时,标准的RNN应该很容易训练(尽管我们没有通过实验来验证)。
我们还对LSTM能够正确翻译非常长的句子感到惊讶。我们最初确信,LSTM人会因为记忆力有限而在长句上失败,其他研究人员报告说,与我们相似的模型在长句上表现不佳[5,2,26]。然而,在反向数据集上训练的LSTMs翻译长句没有什么困难。
最重要的是,我们证明了一种简单、直接和相对非优化的方法可以胜过SMT系统,因此进一步的工作可能会导致更高的翻译准确性。这些结果表明,我们的方法很可能在其他具有挑战性的排序问题上表现良好。
总结
许多重要问题能够用长度未知的序列来表达。
很多牛逼的名词,如短期依赖性,颠倒原句中的单词,会先记在脑子中,学的月深入,后续理解越深刻,重在活学活用。把其搞透彻。
先大致了解下,模型,原始论文应该是在超级计算机上跑出来哒。先大致了解,有兴趣后期找平台,开始在电脑上跑一遍都行啦的样子与打算。
论文不是相当的理解,但是大致了解了LSTM是干什么了,使用两个LSTM分别做编码器和解码器,来完成端到端的序列与序列任务。
会将其大致了解后,在慢慢的开始,找平台,完成真正的模型。
离真正的模型还远远着呢,错十万八千里。
写作思路
暂时看不出来论文的写作思路,只清楚,由于RNN是一种不能用于序列到序列的网络,
而且输入和输出之间具有复杂且非单调的网络关系。而提出一种新的架构LSTM来进行端到端的序列学习。并利用浅层LSTM和深层LSTM进行大规模的训练,并测试其性能。
提出模型也是一种写作思路,不过有力的训练模型需要大的架构层次。
2269

被折叠的 条评论
为什么被折叠?



