seq2seq 论文翻译

最新推荐文章于 2022-07-30 10:20:27 发布

AiBigData

最新推荐文章于 2022-07-30 10:20:27 发布

阅读量745

点赞数

分类专栏：论文文章标签： sequence NLP 论文

本文链接：https://blog.csdn.net/aibigdata/article/details/117867782

版权

论文专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Sequence to Sequence Learning with Neural Networks

摘要

深度神经网络（DNNS）是十分强大的模型已经在困难的学习任务中获得了卓越的表现。尽管DNNS在大型标记训练集上取得了很好的效果，但是他们不能使用时序到时序的映射。在这篇论文中，我们提出了一个通用的端到端的序列学习方法，该方法在时序的结构中进行最小化假设。我们使用多层LSTM模型将输入序列映射到固定维度的向量中，然后另一个深度的 LSTM从这个向量中解码目标的时序。我们的主要结果在WMT14数据集英语到法语的翻译任务中，LSTM产生的翻译在全部的测试集中BLUE得分是34.8，在超出词汇表单词的时候LSTM的BLEU分数会被惩罚。此外，LSTM对长句没有困难。为了进行比较基于短句的SMT系统在相同的数据集达到了BLEU33.3的成绩。当我们使用LSTM去重新排序上述的SMT系统产生的1000个假设时，在这个BLEU分数增加到了36.5，这个接近这个任务上之前的最好成绩。lstm还学习了词序敏感并且相对于主动和被动语态相对不变的合理短语和句子的表达。最后，我们发现在所有源句子中颠倒词的时序在所有数据源（而不是目标句子）能明显的提高lstm的性能，因为这么做能引进许多短序列依赖在源和目标句子之间，这样使优化问题更容易。

1.引言

深度神经网络是极其强大的机器学习模型在语音识别和视觉物体识别困难的任务上表现出卓越的性能。DNNs是很强大的因为它能在适度步数下进行任意的并行计算.一个惊奇的强有力的案例是它们有能力通过2个平方大小的隐藏层对N个N位数字进行排序.所以,而神经网络跟传统的统计模型相关,它们学习了复杂的计算.此外,巨大的DNNS能通过监督学习进行训练每当有标签的数据集有足够的信息来指定网络参数.因此,如果一个巨大的DNNS存在一个能达到好结果的参数集(例如,人类能快速解决任务)有监督反向传播将会寻找这些参数和解决问题.

尽管它们是复杂且强有力的,DNNS仅仅能被应用在输入和目标使用固定长度的向量进行显示的编码.这是一个重大的限制.因为很多重要的问题能被最好的表达是通过没有预先知道序列的长度.例如,语音识别和机器翻译是一个时序问题.同样地,问答也能被映射成单词序列表达问题到一个单词序列表达答案.因此很明显,将序列映射到序列的独立方法将会是很有用的.

时序对于DNNS造成了一个挑战因为输入和输出的维度知道并且是固定的.在这篇论文中,我们展示了LSTM架构解决时序到时序问题简单的应用.这个想法是使用一个LSTM去读取输入序列,一次一个时间步,获得一个巨大固定维度的向量表示,然后使用另一个LSTM从这个向量中提取输出序列.第二个LSTM本质上是一个循环神经网络语言模型除了带条件的输入序列.LSTM的能力在有着长范围时序依赖学习成功,对于这个应用自然的选择因为考虑到了时间的延时在输入和它们对应的输出.

已经有很多相关的尝试试图通过神经网络解决一般序列到序列的学习问题.我们的方法更接近Kalchbrenner和Blunsom第一个试图映射全部输入序列到向量,而且跟Cho相关,尽管后面仅仅对于基于短语句系统的重新评分假设有用.Graves介绍了一个不同的注意力机制,允许神经网络在输入的不同部分,这个思想高雅的变体是成功的被Bahdanau应用在了机器翻译上.连接序列分类是另一个受欢迎的技术,用于将序列映射到具有神经网络的序列,但它假设了在输入和输出之间是一个单调对齐.
20210529232725460

图1,我们的模型读取一个输入句子’ABC’并且创作’WXYZ’作为输出序列.模型在输出句尾标记后停止进行预测.注意LSTM反向读取输入的句子,因为如此做在数据中引进了许多短期限依赖来使得优化问题更简单.

这个工作主要结果如下,在WMT14 英文到法语的翻译任务,我们获得的BLEU成绩是34.81,通过直接的提取译文从一个5个深度LSTM的集合,LSTM(384M参数和每个状态8000维度)使用一个简单的左到右的定向搜索.这是迄今为止通过大型神经网络获得直接翻译结果的最佳结果.对于比较,SMT基准线在这个数据集的分数是33.30.34.81BLEN分数通过一个词汇量80k单词的LSTM获取,所以每当参考译文中包含这些80k词汇表未包含的单词时,这个分数就会被惩罚.这个结果展现了一个相关的未优化的小词汇神经网络结果,有更多提升的空间胜过基于短语的SMT系统.

最终，我们使用LSTM在相同的任务中去重排SMT基准线公开获得的最好的1000个结果。通过这么做，我们获得的BLEU的成绩是36.5，提高了基准线3.2个BLEU点并且接近在这个任务上之前的最好公开结果。（37.0）

令人惊讶的是，尽管最近其他研究者关于这个架构的实验，LSTM没有遭受很长句子的影响。我们在长句子中也能做的很好因为我们颠倒了原句子单词的顺序但是没有目标句子在训练集或者测试集中。因为如此，我们引进了许多短期依赖使得优化问题更简单。结果，SGD学习LSTM没有遭受长句子的麻烦。反转原句子单词这个简单的技巧是这个工作的关键技术贡献。

LSTM一个很有用的属性就是学习一个变长句子的输入句子到一个固定维度向量的表示的映射。鉴于翻译往往是源句的释义，

翻译目标鼓励LSTM寻找捕捉句子含义的表示。因为相似含义的句子彼此相近，而不同含义的句子相距甚远。定性评估支持这一说法，展示我们的模型知道词序并且对主动和被动语态相当不变。

2 模型

循环神经网络是前馈神经网络对序列的自然推广。给与一个输入的序列 $x_1,...,x_T$ ,一个标准的RNN通过迭代如下的公式计算输出序列 $y_1,...,y_T$
$h_t=sigm(W^{hx}x_t+W^{hh}h_{t-1})\\ y^t=W^{yh}h_t$
RNN能简单的序列到序列每当输入和输出队列能提前知道。当然，RNN不能清楚的应用一个RNN，对于输入和输出序列有不一样的长度且有复杂且不单调的关系的问题。

通用序列学习输入序列到固定维度向量的映射使用的RNN的简单策略，而且然后向量到目标序列的映射使用另一个RNN（这个方法已经被Cho et提出）。虽然它原则上可以工作，因为RNN提供了所有的相关信息。它将会很难训练RNN因为长序列长序列依赖（参见图1）。当然，LSTM已经被知道来学习长范围时序依赖的问题。所以在这个背景下LSTM可能会成功。

LSTM的目标是估计条件概率 $p(y_1,...,y_{T^{'}}|x_1,...,x_T)$ 当 $x_1,...,x_T)$ 是一个输入序列和 $y_1,...,y_{T^{'}}$ 是它对应的输出序列 $T^{'}$ 跟 $T$ 的长度可能是不同的。LSTM计算这个条件概率通过第一次获取固定维度输入序列的向量表示由LSTM最后的隐藏状态给予，而且然后计算( $y_1,...,y_T$ )通过标准的LSTM-LM公式它的初始化隐藏状态使用 $x_1,...x_T$ 向量表示来设置。
$p(y_1,...y_{T^{'}}|x_1,...,x_T)=\prod^{T^{'}}_{t=1}p((y_t|v,y1,...,y_{t-1}))$
在这个公司中，每一个 $p(y_t|v,y1,...,y_{t-1})$ 分布表示通过softmax遍及词汇表的所有单词。我们使用来自Graves的LSTM公式。注意我们需要每一个句子都是通过符号"“结尾。这使模型能够定义所有长度序列可能的分布。所有的组合都被概述了在图1中，图中展示了LSTM计算“A”,“B”,“C”,”"的分布和使用这些分布来计算“W”，“X”，“Y”，“Z“，”“的概率。

我实际的模型不同于上面的描述在三个重要的方面。首先，我们使用了两个不同的LSTMs,一个是输入的序列和另一个是输出的序列，因为这样增加了模型的参数数量在计算上微不足道且使它自然同时地在多重语言对训练。第二，我们发现深层的LSTM显著地比浅层LSTM的性能好。所以我们选用4层LSTM模型。我们发现反转输入句子单词的序列是及其有价值的。举个例子，而不是将句子的a,b,c映射到 $\alpha,\beta,\gamma$ ,而是要求将c,b,a映射到 $\alpha,\beta,\gamma$ ，而 $\alpha,\beta,\gamma$ 是a,b,c的翻译。这种方法，a更接近 $\alpha$ ,b更接近 $\beta$ 等，事实上这样会使它更简单，SGD在输入和输出之间建立连接。我们发现简单的数据转换极大的提高了LSTM的性能。

3 实验

我们以两种方式将我们的方法应用到WMT14英语翻译成法语的MT任务中。我们直接翻译输入句子不使用一个SMT系统并且我们重新评分SMT基准线最好的前n个列表。我们报告了这些翻译方法精确率，之前样本的翻译，和可视化结果句子的表示。

3.1 数据集详情

我们使用WMT14的英文到法文的数据集。我们训练我们的模型在348M发文单词和英文单词的子集12M句子组成，这是一个干净的被选择的子集。我们选择这个翻译任务并且指定这个训练集子集因为因为这些是工作可获得的被标记的训练和测试集一起有1000个最好的列表从基准模型SMT中。

作为一个典型的自然语言模型应用在每个单词的向量表示，对于所有的语言我们使用固定的词汇表。我们使用160000个源语言中最常用的单词和80000个目标语言常用的单词。每一个超出词汇表的单词都被特殊的“UNK”标记代替。

3.2 解码和重评分

我们实验的核心是包括训练一个大且深的LSTM在很多句子对上。我们训练这个模型通过给予源句子S来最大化正确的翻译T的log概率，所以训练的目标如下：
$1/[S]\sum_{(T,S)\in S}log p(T|S)$
这里S是训练集，一旦训练完成，我们根据LSTM来寻找最优可能的译文来进行翻译。
$\hat{T}= \underset{T}{\arg \max}p(T|S)$

我们使用简单的左到右定向搜索解码来寻找最有可能的翻译，这个解码维持了一个小数字B的部分假设，这局部的假设是一些译文的前缀。在每一个时间步，我们扩展词汇表中每一个可能的词在定向搜索中中的每个部分假设。这大大增加了假设的数量，所以我们丢弃了所有但根据模型的log概率得到最有可能的假设B.一遇到“”字符则被追加到假设中。它就会从定向搜索中删除并添加到完整的假设集中。虽然解码是近似的，但实现起来很简单。有趣的是，我们的系统在beam的大小为1的时候性能很好，beam的大小为2的时候提供了beam search最大的好处。

我们也使用了LSTM重新评分由基准系统提供的1000个最好列表的。为了重新评分n个最好的列表，我们使用LSTM计算每一个假设的log概率并且通过它们的分数的平均数和LSTM的分数。

3.3 颠倒源句子

虽然LSTM有能力解决长时序依赖问题，但是我们发现LSTM能学习更好当源句子被反转（目标句子不会被反转）。通过这样做，LSTM的测试困惑度从5.8降低到4.7，并且这个解码翻译的BLEU分数从25.9增加到30.6.

虽然我们对这种现象没有完整的解释，但是我们相信这种情况被导致是因为对这个数据集引进了许多短时序依赖。通常地，当我们连接一个源句子到目标句子的时候，每一个在源句子中的单词是原理相对应的目标句子中的单词的。结果，这个问题有一个大的”最小时间延迟“。通过反转源句子中的单词，在源语言到目标语言对应单词的平均距离没有改变。当然，在源语言最初的几个单词离目标语言最初的几个单词现在是非常近的，所以最小时间延时的问题被大大的降低。因此，反向传播有一个较早的时间“建立连接”在源句子到目标句子之间，这反过来大大提高了整体的性能。

最初，我们相信反转输入句子仅仅能导致更多的确信的预测在目标句子的早期的部分并且在之后的部分有更少的确信预测。当然，LSTM在反向源句子在长时序句子上有更好的表现比LSTM训练在原始源句子上,这表明反向输入句子导致LSTM有更好的记忆利用率。

3.4 训练详情

我们发现LSTM模型是相当地容易训练。我们使用深4层LSTM，每一层有1000个存储单元和1000维词嵌入，通过一个160000个输入词汇表和一个输出8000个输出词汇表。因此深LSTM使用8000个真实的数字来代表一个句子。我们发现深LSTM对于浅LSTM有显著的性能提高，当每加一层将困惑度降低10%，也许由于它们的太大的隐藏状态。我们在每一层的输出使用了一个朴素的超过80000个单词的softmax.LSTM结果有384M参数，其中64M是纯循环连接（32M编码LSTM和32M解码LSTM），完整的LSTM训练详情如下所示：

我们初始化所有LSTM的参数在统一的分布，区间在-0.08~0.08
我们使用不用动量的随机梯度下降法，学习率固定为0.7. 5个epochs后，每半个epoch学习率开始减半。我们训练我们的模型一共是7.5epoch.
我们使用128个序列的批次作为梯度并且除以批次的大小（既128）我们
虽然LSTM趋向不会遭受梯度弥散的问题，但是它们有梯度爆炸的问题。因此我们强制一个硬约束在梯度的规范上[10,25]通过缩放它当它超过这个阈值的时候。对于每一个批次的巡礼i按，我们计算g的l2范数 $s=||g||_2$ ,g是梯度除以128.如果s>5,我们设置 $g=\frac{5g}{s}$
不同的句子有不同的长度。更多的句子是短的，（例如长度在 20-30）但是有些句子是长的，（例如长度大于100），所以一个最小的batch是128，随机选择训练句子将会有很多短句子和几个长句子，结果，很多在最小batch中的计算被浪费掉了，为了设法解决这个问题，我们确保所有在一个最小batch中的句子长度大致相同，从而产生两倍的加速。

3.5 并行化

一个C++实现的深LSTM使用上一节的配置在一个单个的GPU，处理的速度是一秒钟1700个单词。对于我们的目标这是太慢了，所以我们使用8个GPU的机器并行化我们的模型。LSTM每层执行在不同的GPU上并且一等它们计算完毕就传达它们的激活函数在下一个GPU/层。我们模型有4层LSTMs,每一个存在单独的GPU上，剩余的4个GPU被使用在并行化softmax，所以每一个GPU负责乘上一个1000*2000的矩阵。这个结果实现达到每秒6300个单词（英文和法文）使用minibatch的大小是128。使用这个实现训练花费了10天。

3.6 实验结果

我们使用BLEU分数来评估我们译文的质量，我们使用multi-bleu.p1来计算我们的BLEU分数在一个被标记的预测和真实情况。这种评估BELU分数的方式跟[5] [2]一致，并且重现[29]的33.3的分数。当然，如果我们在这种方式评估最好的WMT14系统（预测能被下载从statmt.org\matrix）我们得到37，这个是大于被statmt.org\matrix报道的35.8.

这个结果出现表1和2中。我们最好的结果通过全体LSTMs获得的，这些LSTM在随机初始化和minibatches的随机顺序是不同的。当然LSTM集成解码译文性能没有优于最好的WMT14系统，这是第一次一个纯自然语言翻译系统性能优于一个以基于短语SMT基准线在一个大规模的机器翻译中。

在这里插入图片描述

表1：在WMT14英文到法文测试集（ntst14）LSTM的性能。注意一个集成的5层LSTM并且beam的尺寸是12比单层LSTM的beam是12的成本更低。

在这里插入图片描述

表2：在WMT14英文到法文测试集（ntst14）使用神经网络与SMT系统一起使用方法。

尽管它无法处理词汇表外的单词，但是还是有很大的差距。如果它使用基准线系统最好的1000个列表的重新打分LSTM跟最好的WMT14结果在0.5个百分点以内。

3.7 在长句的性能

我们惊奇的发现LSTM在长句上表现良好，定量显示在图3上。表三展现了几个长句的例子和它们的译文。

3.8 模型分析

在这里插入图片描述

图2：这个图展示了LSTM隐藏层状态在2维度PCA的投影，这个状态在处理短语后获取子在这个图中。短语通过含义聚类，这些例子是单词顺序基本的函数，使用一个词袋模型捕获是困难的。注意所有的簇有相似的内部结构。

我们模型一个引人注目的特征是它有能力将一个时序的句子转化为固定长度的向量。图2可视化了一些学习到的表达，这个图清洗地展示了表征对词序很敏感，而对用被动语态替换成主动语态是相当的不敏感。这两个维度投影来源于PCA.

在这里插入图片描述

表3：一些有LSTM生成的长翻译示例和旁边的基本事实翻译。读者使用谷歌翻译验证译文是否合理。

在这里插入图片描述

图3：左边的图展示了我们系统以句子长度的函数的性能。x轴对应测试句子通过它们的长度排序并且通过实际时序的长度被标记。句子长度小于35个单词时候这是没有退化的，这仅有一个较小的退化在更长的句子。右图显示了LSTM在单词越来越少句子上的表现，x轴对应的测试句子通过它们的“平均单词频率排行”进行排序。

4 相关工作

有大量关于神经网络在机器翻译中应用的工作。到目前为止，最简单和最具影响力的方法是应用一个RNN语言模型（RNNLM）或者前馈神经网络模型（NNLM）对于一个机器翻译任务通过重新评分最好的强有力MT基准线的列表，确实提高了翻译的质量。

最近，研究者们已经开始调查将源语言的信息纳入NNLM的方法。这个工作的例证包括Auli等，使用一个NNLM联合一个输入句子的主题模型，提高了重新排分的性能。Devlin等遵循了类似的方法，但是他们是合并他们的NNLM进入到MT系统的解码中并且使用解码器对齐信息提供给NNLM在句子中最有用的词。他们的方法是非常成功的并且比他们的基线提升了很大的进步。

我们的工作跟Kalchbrenner和Blunsom是很相近的，首次映射输入句子成一个向量然后他们回到一个句子，然而他们映射句子到一个向量使用的是卷积神经网络，失去了单词的顺序。类似于这个工作，Cho等使用一个LSTM-like RNN结构映射一个句子成向量然后返回，当然他们的最初的焦点是集成听他们的神经网络到SMT系统。Bahdanau等尝试直接使用一个神经网络翻译，这个神经网络使用一个注意力机制克服Cho等人在长句子表现不佳并且取得了令人鼓舞的结果。同样的，Pouget-Abadie等尝试解决Cho等内存问题通过产生流畅翻译的方式翻译源句子片段，这个跟基于短语的方法是相似的。我们怀疑他们可能达成相似的改进通过反转源句子简单训练他们的网络。

端到端的训练也是Hermann等的焦点，模型代表他们的输入和输出通过正反馈网络，映射他们到相似空间点。当然他们的方法不能直接生成译文：为了获取一个译文，他们需要寻找一个最近的向量在之前计算好的句子资料库中，或者重新评分一个句子。

5 结论

在这个工作中，我们展现了一个大而深的LSTM,词汇量有限且对问题结构不做任何假设性能优于基于标准的SMT系统，这个SMT系统词汇量不受限制在一个大规模的MT任务中。我们简单以LSTM为基础的系统是成功的在MT表明它应该能做的很好在许多其他的时序学习问题，提供他们有足够的训练数据。

通过反转源句子中的单词获取提升的程度使我们感到惊讶。我们推断这是重要的对于发现一个编码问题，有最大数量的短期依赖，他们使得学习问题更简单了。特别，当然我们不能训练一个标准的RNN在一个没有反转翻译问题（在图一中展示），我们相信一个标准的RNN应该更容易训练在源句子被反转。（但是我们没有实验上验证它）

我们对LSTM有正确翻译长句子的能力感到惊奇。我们最初深信LSTM在长句子上会失败因为它受限制的内存，并且其他研究者们报告了一个不好的性能使用的模型跟我们相似在长句子上。可是，LSTMs在反转数据集上训练有一个较小的翻译长句子的困难。

更重要的，我们证明了一个简单，直接，相对未优化的方法性能优于SMT系统，所以未来的工作很可能导致更好的翻译精度。这个结果显示我们的方法将很可能在其他时序到时序的问题做好。

6 鸣谢

20210613090128245

引用

References
[1] M. Auli, M. Galley, C. Quirk, and G.Zweig. Joint language and translation modeling with recurrent
neural networks. In EMNLP, 2013.
[2] D.Bahdanau,K. Cho,and Y.Bengio.Neural machine translation by jointly learning to align andtranslate.
arXiv preprint arXiv:1409.0473,2014.
[3] Y.Bengio,R.Ducharme,P. Vincent,and C.Jauvin.A neural probabilistic language model.In Journal of
Machine Learning Research, pages 1137-1155,2003.
[4] Y.Bengio,P. Simard,and P. Frasconi. Learning long-term dependencies with gradient descent is difficult.
IEEE Transactions on Neural Nerworks, 5(2):157-166, 1994.
[5] K. Cho,B.Merrienboer,C.Gulcehre,F.Bougares,H.Schwenk,and Y.Bengio.Learning phrase represen-
tations using RNNencoder-decoder for statistical machine translation. InArxiv preprintarXiv:1406.1078, 2014.
[6] D. Ciresan,U. Meier,and J.Schmidhuber. Multi-column deep neural networks for image classification.
In CVPR,2012.
[7] G.E.Dahl, D.Yu,L.Deng,and A. Acero. Context-dependent pre-trained deep neural networks for large
yocabulary speech recognition. IEEE Transactions on Audio.Speech,and Language Prcessing- Special Issue on Deep Leaming for Speech and Language Processing,2012.
[8] J.Devlin,R.Zbib,Z.Huang,T.Lamar,R. Schwartz, and J.Makhoul.Fast and robust neural network
joint models for statistical machine translation. In ACL,2014.
[9] Nadir Durrani,Barry Haddow, Philipp Koehn,and Kenneth Heafield. Edinburgh’s phrase-based machine
translation systems for wmt-14. In WM7,2014.
[10] A. Graves.Generating sequences with recurrent neural networks. In Arxiv preprint arXiv:1308.0850,
2013.
[11] A. Graves，S.Fernåndez，F.Gomez，and J.Schmidhuber. Connectionist temporalclassification∶ labelling
unsegmented sequence data with recurrent neural networks. In ICML, 2006.
[12] K. M.Hermann and P. Blunsom. Multilingual distributed representations without word alignment. In
ICLR,2014.
[13] G. Hinton,L. Deng,D. Yu,G. Dahl, A.Mohamed,N. Jaitly, A. Senior, V. Vanhoucke,P. Nguyen
T. Sainath, and B.Kingsbury. Deep neural networks for acoustic modeling in speech recognition.IEEE Signal Processing Magazine, 2012.
[14] S.Hochreiter. Untersuchungen zu dynamischen neuronalen netzen.Master’s thesis， Institut fur Infør-
matik, Technische Universitat, Munchen, 1991.
[15] S.Hochreiter, Y. Bengio,P. Frasconi,and J.Schmidhuber. Gradient flow in recurrent nets: the difficulty
of learning long-term dependencies, 2001.
[16] S.Hochreiter and J.Schmidhuber.Long short-term memory. Neural Compuation,1997.[17] S.Hochreiter and J.Schmidhuber. LSTM can solve hard long time lag problems.1997.[18] N.Kalchbrenner and P.Blunsom.Recurrent continuous translation models.In EMNLP,2013.
[19]A. Krizhevsky,I. Sutskever, and G.E.Hinton.ImageNet classification with deep convolutional neural
networks. In NIPS, 2012.
[20] Q.V.Le, M.A. Ranzato,R.Monga,M.Devin,K. Chen, G.S. Corrado,J.Dean,and A.Y.Ng. Building
high-level features using large scale unsupervised learning. In ICML,2012.
[21] Y.LeCun,L.Bottou,Y.Bengio,andP.Haffner. Gradient-based learning applied to document recognition.
Proceedings of the IEEE, 1998.
[22] T.Mikolov. Satistical Language Models based on Neural Networks. PhD thesis,Brno University of
Technology, 2012.
[23] T.Mikolov，M.Karafiåt，L. Burget，J.Cernocky，and S.Khudanpur. Recurrent neural network based
language model. In INTERSPEECH, pages 1045-1048,2010.
[24] K. Papineni,S.Roukos,T.Ward,and W.J.Zhu. BLEU:a method for automatic evaluation of machine
translation. In ACL,2002.
[25]R.Pascanu,T.Mikolov,and Y.Bengio.On the dificulty of training recurrent neural networks.arXiv
preprint arXiv:1211.5063,2012.
[26] J. Pouget-Abadie, D. Bahdanau,B.van Merrienboer,K. Cho,and Y. Bengio. Overcoming the
curse of sentence length for neural machine translation using automatic segmentation.arXiv preprint arXiv:1409.1257,2014.
[27] A.Razborov.On small depth threshold circuits. In Proc.3rd Scandinavian Workshop on Algorithm
Theony, 1992.
[28] D. Rumelhart, G.E.Hinton,and R.J. Williams.Learning representations by back-propagating errors.
Nature, 323(6088):533-536, 1986.
[29] H. Schwenk. University le mans. http://www-lium.univ-lemans.fr/-schwenk/cslm_
joint_paper/,2014. [Online; accessed 03-September-2014].
[30] M.Sundermeyer,R. Schluter,and H.Ney.LSTM neural networks for language modeling.In INTER
SPEECH, 2010.
[31] P. Werbos.Backpropagation trough time: what itdoes and how to do it. Proceedingsof IEEE,1990.