Attention Is All You Need论文翻译

最新推荐文章于 2023-04-17 22:58:32 发布

AiBigData

最新推荐文章于 2023-04-17 22:58:32 发布

阅读量447

点赞数

分类专栏：论文文章标签：论文翻译 Transformer

本文链接：https://blog.csdn.net/aibigdata/article/details/119511022

版权

论文专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Attention Is All You Need

摘要

显著优势得时序转换模型都是以复杂的包括一个编码器和一个解码器的循环神经或者卷积神经网络。最好性能的模型也通过一个attention机制连接着编码器和解码器。我们提出了一个新的简单的网络架构，The Transformer，仅仅以注意力机制为基础，完全省略了循环和卷积神经网络。在两个机器翻译的实验上表明模型有更好的质量同时更可平行化且需要更少的训练时间。我们的模型在WMT2014英译德翻译任务获得了28.4分，改善了存在的最好的结果，包括集成，超过2个BLEU。在WMT2014英译法的翻译任务中，在9台GPU上训练3.5天我们的模型建立了一个新的单模型最先进的41.8 BLEU成绩，文献中最好模型训练成本的一小部分。我们展示Transformer在其他任务上表现很好，通过它成功的英语选区解析与大量且有限制的训练数据。

1 介绍

循环神经网络，长短时记忆和门神经网络，尤其已经被牢牢的确立作为时序模型最好的方法并且转换问题诸如语言模型和机器翻译，此后大量的努力继续推动着循环语言模型和编码器-解码器架构的边界。

同等的贡献，列表的循序是随机的，Jakob提出替换RNNs使用self-attention且开始努力评估这个思想。Ashish和Illia,设计和实现了第一个Transformer模型并且关键的包含在这个任务中的每一个方面。Noam提出了可缩放点积注意力，多头注意力和无参数位置表示且成为所有细节中的一个人。Niki设计实现调整和评估无数个以我们原始基准代码的变体模型且tensor2tensor,替换我们更早的基础代码，极大的提高了结果且大大加速了我们的研究。

循环模型通过沿着输入符号的位置和输出时序典型因素计算，将位置与计算时间的步骤相对齐，它们生成隐藏状态的时序 $h_t$ ,作为一个函数由之前隐藏状态 $h_{t-1}$ 和输入位置t组成。这种固有的顺序性质排除了训练示例的并行化，这在更长的序列长度时变得更加重要，因为内存限制限制住了跨示例的批处理。循环工作已经实现了一个巨大的计算效率的改善通过因式分解技巧和有条件的计算。同时在后者的情况下提升了模型的性能。然而，顺序计算的的根本限制仍然存在。

注意力机制已经成为各种任务中引人注目的时序模型和转导模型不可获取的一部分，允许模型没有依赖关于输入和输出时序它们的距离。在所有但很少的情况下，当然，如此注意力机制与循环神经网络共同被使用。

在这个工作中我们提出了Transformer，一种避免重复的模型架构，并且完全依靠注意力机制绘制输入和输出全局依赖关系。Transformer允许更多的并行化和新的最先进的翻译质量在使用9台P100GPUS仅仅训练12个小时之后。

2. 背景

减少时序计算的目标也形成了扩增神经GPU的基础。【16】ByteNet【18】和ConvS2S【9】，所有的这些使用了卷积神经网络作为构建块的基础，给所有输入和输出位置并行计算的隐藏表示。在这些模型中，操作的次数需要从两个任意输入或输出位置产生两个位置的距离的相关信号。ConvS2S线性和ByteNet是对数。这使它更难学习依赖两个位置之间的距离。Transformer减少了常量的操作。尽管由于平均注意力权重位置降低有效分辨率为代价，因此在3.2节描述的多头注意力来抵消。

自注意力，有时候被称作内部注意力是一种注意力机制关联一个单独时许的不同的位置为了计算一个时序的表示。自注意力机制已经成功使用在多种任务中包括阅读理解，摘要总结，文本蕴含和学习句子表示独立任务。【4，27，28，22】

端到端的记忆网络是以循环注意力机制为基础代替时序对齐循环神经网络并且已经在单语言问答和语言模型任务中展示了很好的性能。

据我们所知，然而，Tranasform是第一个转换模型完全依赖自注意力模型来计算输入和输出的分布而不使用时序对其RNNs或卷积。在下面的章节中，我们将描述Transformer,激发自注意力和讨论模型的优势诸如17，18，9；

3. 模型架构

最具竞争力神经时序转换模型有一个encoder-decoder架构[5,2,35]。在这，编码器映射一个符号表示的输入时序( $x_i,...,x_n$ )到一个连续表示的时序z=(z= $z_1,...,z_n$ )。给一个z，编码然后生成一个符号元素同一时间的输出时序（ $y_1,...,y_m$ ）。模型的每一步都是自回归的[10]，当生成下一个的时候会消费之前生成的符号作为额外的输入。

Transformer使用堆自注意力和逐点来遵循这个整体架构，encoder和decoder的全链接层，分别地展示在图1左右两侧。

在这里插入图片描述

3.1 编码层和解码层堆叠

编码层：编码层是一个完全相同的N=6层组成。每层有两个子层。第一个是一个多头自注意力机制，第二是一个简单的，position-wise全链接正反馈网络。我们采用一个残差链接在每两个层之间，然后跟一个标准化层。换言之，每一个子层的输出L ayerNorm(x+Sublayer(x)),Sublayer(x)这个函数使用子层自己实现。为了促进残差链接，在模型中所有的子层，和emebedding层一样，输出维度是 $d_model=512$

解码层：解码层也是由6层完全相同的层组成，在每一个编码层还有两层子层。编码层插入第三个子层，在编码层堆叠输出之上执行多头注意力。跟编码层相似，在每个子层之间我们采用残差链接，随后链接一个标准化层。我们修改在编码堆叠的自注意力子层从注意子序列位置到之前的位置。这个掩码，结合输出embeeddings偏移一个位置的的事实。确保预测位置i仅仅依赖知道的输出位置小于i的。

3.2 注意力

一个注意力函数能被描述映射一个查询到一组输出kv对，查询，keys，values,和输出都是向量。输出被计算为一个权重值的和，权重对齐每一个值计算通过一个兼容性函数使用一致性key来查询。

在这里插入图片描述

图2:（左）缩放点积注意力机制。（右）多头注意力机制由多个并行运行注意力层组成。

3.2.1 缩放点积注意力机制

我们称我们特别的注意力"缩放点积注意力"(图2)。输入有查询和维度 $d_k$ 的keys组成，维度 $d_v$ 的值。我们计算查询所有keys的点积。每一个除以 $\sqrt{d_k}$ ,然后提供一个softmax函数来获取权重值。

实际上，我们同事计算一组查询在注意力函数，同时打包到一个矩阵Q。k,v也一起打包到矩阵K和V。我们计算矩阵的输出如下：
$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V \tag{1}$

最常使用的注意力函数是累积注意力和点积（乘法）注意力。点积注意力在我们算法中是完全相同的，除了缩放因素以外 $\frac{1}{\sqrt{d_k}}$ .累积注意力计算兼容函数使用一个单隐藏层的正反馈网络。当然这两个在理论复杂度上是相似的，在实践中点积注意力更快并且更有空间效率，因为它使用高度优化矩阵乘法代码来进行执行。

而对于较小的值 $d_k$ ，两个机制的性能相似，累积注意力性能优于点积注意力在不使用缩放大值 $d_k$ 时。我们怀疑大值 $d_k$ ,点积在量级上成长更大。当它有极其小的梯度的时候，推出softmax函数进入域。为了抵消影响，我们使用 $\frac{1}{\sqrt{d_k}}$ 进行缩放。

3.2.2 多头注意力

使用 $d_{model}$ 维度的keys，values和queries来替换单注意力函数，我们发现线性投影queries,keys,values h次是有益的，学习线性投影分别到 $d_k,d_k,d_v$ 维度。在每一个投影queries,keys,values的版本，我们随后并行执行注意力函数，产生 $d_v$ 维度的输出值。这是串行且再一次的投影，在最后的值是结果，在图2描述。

为了阐述为什么点积变大，假设组成的q,v是独立随机的0均值1方差的变量。然后它们进行点积， $q\cdot k=\sum_{i=1}^{d_k}q_ik_i$ ，这个公式意味着0均值，方差为 $d_k$ .

多头注意力允许模型从不同的位置、不同的表示空间共同的主意信息。使用单注意力头进行平均会抑制它。
$MultiHead(Q,K,V)=Concat(head_1,...,head_h)W^o \\ where head_i=Attention(QW_i^Q,KW_i^k,VW_i^V)$
投影是参数矩阵 $W_i^Q\in \mathbb{R}^{d_{model} \times d_k},W_i^K\in \mathbb{R}^{d_{model}\times d_k},W_i^V \in \mathbb{R}^{d_{model}\times d_v} and W^O\in \mathbb{R}^{hd_v \times d_{model}}$

在这个工作中，我们采用h=8并行注意力层，或者注意力头。每一个我们使用 $d_k=d_v=d_{model}/h=64$ ,因为减少每个头的维度，总共的计算花费跟全维度单头注意力是相似的。

3.2.3 在我们模型注意力应用

Transformer使用多头注意力有3种不同方式

在"encoder-decoder attention"层，queries来源于之前的解码层，memory keys和values 来自编码层的输出层。这允许在解码层每个位置关注输入序列的所有位置。这模仿诸如[38,2,9]的sequence-to-sequence模型中的典型encoder-decoder注意力机制。
编码层包含self-attention层。在self-attention层的所有keys,values和queries来源于相同的位置，在这种情况下，之前层的输出在编码层。编码层的每一个位置能注意到之前编码层的所有位置。
相似地，在decoder的self-attention层允许在decoder的每一个主意decoder达到并包括的所有位置。我们需要防止左侧的信息流入decoder来保护自动回归的性能。我们通过屏蔽softmax输入与错误链接相对应的所有值来缩放点积注意力的。

3.3 Position-wise正反馈网络

附加的注意力子层，在我们encoder和decoder每一层包含一个全链接正反馈网络，应用在每一个分开且独立的位置。在中间包含两个线性ReLU激活函数的线性转换。
$xW_1+b_1)W_2 + b2 \tag{2}$
在遍及不同位置的线性变换是相同的，在层与层之间使用不同的参数。另一个描述的方法是kernel size为1的两个卷积。输入和输出维度是 $d_model=512$ ,inner-layer维度是 $d_{ff}=2048$

3.4 embeddings和Softmax

跟其他的时序转换模型相似，我们使用学习到的embeddings来转换输入tokens和输出tokens到一个维度为 $d_{model}$ 的向量。我们也使用通常学习的线性转换和softmax函数来转换decoder输出来预测下一个token的概率。在我们的模型中，在两个embedding层我们分享两个相同的权重矩阵和pre-softmax线性转换。跟[30]相似。在embedding层，我们乘以 $\sqrt{d_{model}}$ 权重。

3.5 位置编码

因为我们的模型不包含循环和卷积。为了我们模型使用时序的顺序，我们必须注入关于关于时序tokens位置相对或绝对的一些信息。

表1：最大化的路径长度，每层的复杂度，时序操作的最小数量对于不同的层类型。n是时序长度，d是表示维度，k是卷积核尺寸的大小，r是限制slef-attention的邻居尺寸。

在这里插入图片描述

为了这个结果，我们在encoder和decoder栈的底部增加位置编码到输入embeddings。位置编码在embeddings有相同的维度 $d_{model}$ ，所以那两个能被概述，位置编码有很多选择，在[9]中学习。

在本工作中，在不同的频率中使用sine和cosine函数。
$PE_{pos,2i}=sin(pos/10000^{2i/d_{model}})\\ PE_{pos,2i+1}=cos(pos/10000^{2i/d_{model}})$
pos是位置，i是维度，每个维度的位置编码相当于一个正弦曲线。几何前进的波长长度是 $2\pi 到 10000\cdot 2\pi$ 。我们选择这个函数因为我们假设它允许模型更容易学习注意相关位置，因为任何固定的offset k， $PE_{pos+k}$ 能被表示作为一个线性函数 $PE_{pos}$ .

4 为什么self-Attention

在这个章节我们比较self-attention层与循环和卷积层共同使用在映射一个符号变长的表示（ $x_1,...,x_n$ ）到一个等长的时序（ $z_1,...,z_n$ ）, $x_i,z_i\in \mathbb{R}^d$ ,诸如一个隐藏层在典型时序转换编码层到解码层。我们使用self-attention主要有下面三个动机。

一个是每层总共计算的复杂度。另一个就是并行化计算的数量。通过最小需要时序操作的数量来衡量。

第三个在网络中长范围依赖的路径长度。学习长范围依赖的关键挑战是许多时序转换任务。影响这种依赖能力的关键因素是在网络中的前向和反向信号遍历路径的长度。在任何输入和输出路径的时序更短，就更容易学习长范围依赖。因为我们也比较了在不同类型层组成的网络中任意两个输入和输出位置最长路径长度。

注意表1中self-attention层连接所有位置是一个常数的时序执行操作。然而循环层需要O(n)时序操作。按照计算复杂度，当时序长度n小于表达维度d时self-attention比循环层更快，这个是更经常出现在句子表达在最先进机器学习模型的情况，诸如word-piece和byte-pair表示。为了提高包含非常长句子计算的表现，self-attention能被限制去仅仅考虑输入序列在各自输出位置为中心的大小为r的领域。这将会增加最大路径长度到O（n/k）。我们计算在未来的工作中进一步研究这个方法。

核宽度k<n单独卷积层没有连接所有的输入和输出位置对。这么做需要一个O(n/k)栈的卷积层在连续核的情况下，或者在扩增的卷积 $O(log_k(n))$ 的卷积，在网络中任意两个位置之间增加最长的路径。卷积层通常比循环层更昂贵,以k为因子。可分离的卷积，当然，大大得降低了复杂性,达到 $O(k\cdot n\cdot d + n \cdot d^2)$ .即使k=n，当然，可分离的卷积的复杂性相当于self-attention和一个point-wise正反馈层的联合，在我们的模型中采用了这个方法。

作为附带利益，self-attention能产生更多可解释模型。我们检查我们模型注意力的分布，在附录中展现并讨论案例。个人注意力不仅可以清晰学习执行不同的任务，许多似乎显现出句子的句法和语义结构相关行为。

5 训练

本节描述了模型的机制

5.1 训练集和batching

我们在由450万句子对组成的斯坦福WMT2014英译德数据集。句子使用byte-pair编码方式进行编码【3】。有一个分享的源-目标37000个tokens词汇表。对于英译法，我们使用由3600万句子组成的更大的WMT2014英译法数据集且切分tokens到32000个word-piece词汇表【38】。句子对按照近似序列长度分批放在一起。每个训练批次包含一组句子对，句子对包含近似25000个源tokens和25000目标tokens.

5.2 硬件和周期

我们模型训练在有8个P100GPUs的一台机器上。我们模型的超参数描述贯穿这篇论文，每个训练步骤花费0.4s，我们训练基本模型一共100000步或者是12小时。对于我们的大模型，（描述放在表3的底部），每步花费1秒。大模型一共训练300000步（3.5天）。

5.3 优化

我们使用Adam优化器[20] $\beta_1=0.9,\beta_2=0.98,\epsilon=10^{-9}$ .我们在训练的过程中改变学习率，根据下面的公式。
$lrate=d^{-0.5}_{model}\cdot min(step\_num^{-0.5},step\_num\cdot warmup\_steps^{-1.5})\tag{3}$
这相当于在第一个warmup_step训练步骤中线性增加学习率，然后与步骤数的平方根成反比。，我们使用warmup_steps=4000.

5.4 正则化

我们在训练的过程中采用三种类型的正则。

Residual Dropout

我们在每个子层应用dropout输出，将它加入子层输入之前进行归一化。额外的，我们采用dropout在embeddings的和还有在所有编码器和解码器栈进行位置编码。在基础模型中，我们使用 $P_{drop}$ =0.1

表2：Transformer在英译德和英译法newstest2014数据集上达到了最先进模型更好的BLEU成绩以一部分的训练花费。

在这里插入图片描述

Label Smoothing,在训练期间，我们采用 $\epsilon_{ls}=0.1$ 的值进行标签平滑。这损害了困惑，模型学习的更不确定，但是提高了精确度和BLEU值。

6 结果

6.1 机器翻译

在WMT2014英译德翻译任务中，big transformer模型胜过以前报道过最好的模型（包括ensembles）超过2.0BLEU,建立了最先进的BLEU成绩28.4。模型配置列表在表3的底部。在8个P100GPUs上花费了3.5天训练。甚至我们的基本模型超过了之前所有发布的模型和ensembles，是任何竞争模型训练花费的一小部分。

在WMT2014英译法翻译任务中，我们big model取得了41.0BLEU成绩，胜过之前所有发布的单模型，不到之前最先进模型训练花费的1/4.big Transformer model训练英译法使用的dropout率是 $P_{drop}=0.1$ ,代替0.3.

对于基础模型，我们使用一个由最后5个checkpoint的平均获得的单模型，每隔10分钟写一次。对于big model,我们平均最后20个checkpoints.我们使用beam size为4进行beam search然后长度惩罚 $\alpha=0.6[38]$ .超参数在开发数据集实验之后选择。我们在推理期间最大输出长度设置为输入长度+50，但是可能的情况会提前终止。

表2，概述我们的结果，比较我们翻译质量和训练花费跟文献中的其他模型架构。我们通过乘以训练时间来评估训练一个模型浮点计算操作的数量，使用GPUs的数量，以及评估每一个GPU维持单精度浮点容量。

6.2 模型变种

为了评估Transformer不同组件的重要程度，我们使用不同的方法改变我们基础的模型，在开发集newstest2013上的英译德任务上测量性能的变化。在之前的章节我们使用的beam search被描述，但是没有checkpoint求平均。我们在表3展现这些结果。

在表3（A）行，我们改变了attention heads数量，attentions key和attentions values维度，保持计算数目恒定。在3.2.2章节描述了。当然单头注意力是比最好的设置少0.9BLEU,太多的头质量也会下降。

表3：Transformer架构的变种。没有列出的值跟基础模型中的是完全相同的，所有的度量在是2013newstest开发数据集英译德的任务中。列出的困惑是每个单词的，根据我们字节对编码，不应该比较每个单词的困惑。

在这里插入图片描述

表4:Transformer更好的推广到成分句法解析（结果是WSJ的23节）

在这里插入图片描述

在表3 （B）行，我们发现降低attention key尺寸 $d_k$ 会损害模型的质量。这表明确定兼容性并不是容易的并且比点积更复杂的兼容性可能是有益的。我们进一步观察（C）(D)行，不出所料，更大的模型更好，dropout对于避免过拟合很有帮助。在（E）行我们使用学习的位置embeddings替换正弦位置编码，发现结果跟基本模型十分相同。

6.3 英语成分句法分析

为了评估Transformer是否能推广到其他任务，我们在英文成分句法分析完成了实验。这个任务展现了特别的挑战：输出受到强烈的结构限制且输出明显长过输入。此外，RNN sequence-to-sequence模型没有能力在小数据集获得最先进的结果。

我们在Penn TreeBank的Wall Street Journal(WSJ)部分训练了4层 $d_{model}$ 的transformer，大约40k的训练句子。我们在一个半监督的设置下训练它，使用更大更高置信度，BerkleyParser语料大约1700万句子【37】。仅仅WSJ设置我们使用16k的tokens词库，半监督的设置我们使用32k tokens词汇。

我们在表4中结果表明，尽管缺乏对特定任务的微调，但是我们的模型表现得出奇得好，产生比之前报道过所有模型更好的结果除了Recurrent Neural Network Grammar[8].

与RNN sequence-to-sequence模型进行对比，Transformer胜过Berkeley-Parser[29],甚至当仅仅在WSJ 40k训练集训练时。

7 结论

在这个工作中，我们提出了Transformer,完全在attention基础上的第一个序列转换，使用多头self-attention替代了在encoder-decoder架构中最常见的循环层。

对于翻译任务，Transformer比循环或卷积层架构训练更快。在WMT2014英译德和WMT2014英译法两者翻译任务中，我们取得了最先进的水平。在之前的任务中我们最好的模型胜过了甚至之前所有报道过的ensembles.

我们对于未来以attention-based模型感到激动且计划将他们应用到其他任务中。我们计划Transformer扩展到问题包含输入和输出除了文本形式还有研究本地，受限制的attention机制来有效处理更大的输入和输出，诸如图片，音频，视频。屏蔽产生更少的序列是我们的另一个研究目标。

我们使用训练评估我们模型的代码可以在 https://github.com/tensorflow/tensor2tensor获得。

鸣谢：我们十分感谢Nal Kalchbrenner和Stephan Gouws富有成效的评论，更正和启发。

引用

[1] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. arXiv preprint
arXiv:1607.06450, 2016.
[2] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly
learning to align and translate. CoRR, abs/1409.0473, 2014.
[3] Denny Britz, Anna Goldie, Minh-Thang Luong, and Quoc V. Le. Massive exploration of neural
machine translation architectures. CoRR, abs/1703.03906, 2017.
[4] Jianpeng Cheng, Li Dong, and Mirella Lapata. Long short-term memory-networks for machine
reading. arXiv preprint arXiv:1601.06733, 2016.
[5] Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk,
and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical
machine translation. CoRR, abs/1406.1078, 2014.
[6] Francois Chollet. Xception: Deep learning with depthwise separable convolutions. arXiv
preprint arXiv:1610.02357, 2016.
[7] Junyoung Chung, Çaglar Gülçehre, Kyunghyun Cho, and Yoshua Bengio. Empirical evaluation
of gated recurrent neural networks on sequence modeling. CoRR, abs/1412.3555, 2014.
[8] Chris Dyer, Adhiguna Kuncoro, Miguel Ballesteros, and Noah A. Smith. Recurrent neural
network grammars. In Proc. of NAACL, 2016.
[9] Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. Convolutional sequence to sequence learning. arXiv preprint arXiv:1705.03122v2, 2017.
[10] Alex Graves. Generating sequences with recurrent neural networks. arXiv preprint
arXiv:1308.0850, 2013.
[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, pages 770–778, 2016.
[12] Sepp Hochreiter, Yoshua Bengio, Paolo Frasconi, and Jürgen Schmidhuber. Gradient flow in
recurrent nets: the difficulty of learning long-term dependencies, 2001.
[13] Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation,
9(8):1735–1780, 1997.
[14] Zhongqiang Huang and Mary Harper. Self-training PCFG grammars with latent annotations
across languages. In Proceedings of the 2009 Conference on Empirical Methods in Natural
Language Processing, pages 832–841. ACL, August 2009.
[15] Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu. Exploring
the limits of language modeling. arXiv preprint arXiv:1602.02410, 2016.
[16] Łukasz Kaiser and Samy Bengio. Can active memory replace attention? In Advances in Neural
Information Processing Systems, (NIPS), 2016.
[17] Łukasz Kaiser and Ilya Sutskever. Neural GPUs learn algorithms. In International Conference
on Learning Representations (ICLR), 2016.
[18] Nal Kalchbrenner, Lasse Espeholt, Karen Simonyan, Aaron van den Oord, Alex Graves, and Koray Kavukcuoglu. Neural machine translation in linear time. arXiv preprint arXiv:1610.10099v2,
2017.
[19] Yoon Kim, Carl Denton, Luong Hoang, and Alexander M. Rush. Structured attention networks.
In International Conference on Learning Representations, 2017.
[20] Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In ICLR, 2015.
[21] Oleksii Kuchaiev and Boris Ginsburg. Factorization tricks for LSTM networks. arXiv preprint
arXiv:1703.10722, 2017.
[22] Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen
Zhou, and Yoshua Bengio. A structured self-attentive sentence embedding. arXiv preprint
arXiv:1703.03130, 2017.
[23] Minh-Thang Luong, Quoc V. Le, Ilya Sutskever, Oriol Vinyals, and Lukasz Kaiser. Multi-task
sequence to sequence learning. arXiv preprint arXiv:1511.06114, 2015.
[24] Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective approaches to attentionbased neural machine translation. arXiv preprint arXiv:1508.04025, 2015.
[25] Mitchell P Marcus, Mary Ann Marcinkiewicz, and Beatrice Santorini. Building a large annotated
corpus of english: The penn treebank. Computational linguistics, 19(2):313–330, 1993.
[26] David McClosky, Eugene Charniak, and Mark Johnson. Effective self-training for parsing. In
Proceedings of the Human Language Technology Conference of the NAACL, Main Conference,
pages 152–159. ACL, June 2006.
[27] Ankur Parikh, Oscar Täckström, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention
model. In Empirical Methods in Natural Language Processing, 2016.
[28] Romain Paulus, Caiming Xiong, and Richard Socher. A deep reinforced model for abstractive
summarization. arXiv preprint arXiv:1705.04304, 2017.
[29] Slav Petrov, Leon Barrett, Romain Thibaux, and Dan Klein. Learning accurate, compact,
and interpretable tree annotation. In Proceedings of the 21st International Conference on
Computational Linguistics and 44th Annual Meeting of the ACL, pages 433–440. ACL, July
2006.
[30] Ofir Press and Lior Wolf. Using the output embedding to improve language models. arXiv
preprint arXiv:1608.05859, 2016.
[31] Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural machine translation of rare words
with subword units. arXiv preprint arXiv:1508.07909, 2015.
[32] Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton,
and Jeff Dean. Outrageously large neural networks: The sparsely-gated mixture-of-experts
layer. arXiv preprint arXiv:1701.06538, 2017.
[33] Nitish Srivastava, Geoffrey E Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: a simple way to prevent neural networks from overfitting. Journal of Machine
Learning Research, 15(1):1929–1958, 2014.
[34] Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, and Rob Fergus. End-to-end memory
networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett, editors,
Advances in Neural Information Processing Systems 28, pages 2440–2448. Curran Associates,
Inc., 2015.
[35] Ilya Sutskever, Oriol Vinyals, and Quoc VV Le. Sequence to sequence learning with neural
networks. In Advances in Neural Information Processing Systems, pages 3104–3112, 2014.
[36] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and Zbigniew Wojna.
Rethinking the inception architecture for computer vision. CoRR, abs/1512.00567, 2015.
[37] Vinyals & Kaiser, Koo, Petrov, Sutskever, and Hinton. Grammar as a foreign language. In
Advances in Neural Information Processing Systems, 2015.
[38] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang
Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. Google’s neural machine
translation system: Bridging the gap between human and machine translation. arXiv preprint
arXiv:1609.08144, 2016.
[39] Jie Zhou, Ying Cao, Xuguang Wang, Peng Li, and Wei Xu. Deep recurrent models with
fast-forward connections for neural machine translation. CoRR, abs/1606.04199, 2016.
[40] Muhua Zhu, Yue Zhang, Wenliang Chen, Min Zhang, and Jingbo Zhu. Fast and accurate
shift-reduce constituent parsing. In Proceedings of the 51st Annual Meeting of the ACL (Volume
1: Long Papers), pages 434–443. ACL, August 2013.