【CS224n】Neural Machine Translation with Seq2Seq

最新推荐文章于 2021-03-23 21:57:45 发布

Flying_sfeng

最新推荐文章于 2021-03-23 21:57:45 发布

阅读量476

点赞数

分类专栏： CS224n 文章标签：自然语言处理

本文链接：https://blog.csdn.net/Flying_sfeng/article/details/105624346

版权

CS224n 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

CS224n系列：
【CS224n】Neural Networks, Backpropagation
【CS224n】Neural-Dependency-Parsing
【CS224n】Language Models, RNN, GRU and LSTM
【CS224n】Neural Machine Translation with Seq2Seq
【CS224n】ConvNets for NLP

1 Neural Machine Translation with Seq2Seq

1.1 Brief Note on Historical Approaches

传统的翻译系统是基于概率模型的，包括翻译模型和语言模型，并由此建立起基于词或短语的翻译系统。朴素的基于词的翻译系统没办法捕捉词的顺序关系；基于短语的翻译系统可以考虑输入和输出的短语序列，并且可以处理比基于单词的系统更复杂的语法，但仍然没办法捕捉序列的长期依赖。Seq2seq模型作为一种现代的翻译系统，可以考虑序列的长期依赖（LSTM），来生成更实用的翻译结果。

Sequence-to-sequence Basics

seq2seq框架是一个end-to-end的模型，包括两部分的RNN：

encoder:将输入序列编码成一个固定长度的向量；
decoder:使用encoder得到的固定长度的向量作为种子（引子）添加到decoder模型中，以此来生成一个输出序列；
本文中，Seq2Seq模型通常称为“encoder-decoder model”.

1.3 Seq2Seq architecture - encoder

上文提到，encoder是将输入序列编码成一个固定长度的向量，通常使用RNN(LSTM)。然而，要将一个任意长的序列转换成一个向量是比较难的事，因此我们通常使用多层的LSTM（stacked LSTMs），最后一层的隐藏层状态为变量C。
Seq2Seq encoders可以使用一种策略：将输入序列倒序输入。这么做的目的是：encoder阶段看到的最后一个词刚好是decoder阶段最先看到，这使得decoder在解码的开始阶段更容易输出正确结果，从而引导模型一步步得到更适当的输出。具体结构如下图所示：
在这里插入图片描述

1.4 Seq2Seq architecture - decoder

decoder阶段同样是一个LSTM模型，但网络结构会相对复杂一些，使用encoder阶段输出的变量来初始化隐藏层。下图是decoder阶段的一个例子：
在这里插入图片描述

1.5 Recap & Basic NMT Example

encoder跟decoder关于序列长度这一块是相互独立的，理论上，模型可以接受任意长的输入，同时可以有任意长的输出。当然，输入太长的话模型的效果会下降；模型的输出以作为标记。

1.6 Bidirectional RNNs

我们前面所讲的模型都只考虑到了一个方向，没办法学习一个词的上下文信息。而双向RNN可以解决这个问题，它通过将一个序列输入到一个从左到右的RNN模型和一个从右到左的RNN模型，然后将两个模型的输出结果拼接起来(concat)作为总的输出。模型框架如下图所示：
在这里插入图片描述

2 Attention Mechanism

2.1 Motivation

动机：针对一个句子，我们可能关注的重点不一样，比如句子"the ball is on the field,"，我们可能更关注"ball," “on,” “field,” 等词，也就是说，这些词相对于其他词重要性更高一些，因为我们有了注意力机制，来捕获这种对词的重要性的描述。

2.2 Bahdanau et al. NMT model

下面介绍早期将注意力机制用于RNN模型的一种方法(可参考：Bahdanau et al. 2014, “Neural Machine Translation by Jointly Learning to Align and Translate”).
首先定义好输入句子 $x_1,...,x_n$ ，以及输出句子 $y_1,...,y_m$ .

encoder: $h_1,...,h_n)$ 表示输入句子的隐藏层表示，encoder使用bi-LSTM来捕捉句子中每个词的上下文表示；
decoder: decoder阶段的隐藏层表示 $s_i$ 使用以下的递归形式：
$s_i=f(s_{i-1},y_{i-1},c_i)$
其中， $s_{i-1}$ 表示上一个时刻的隐藏向量， $y_{i-1}$ 表示前一个时刻生成的词（即前一个时刻的输出）; $c_i$ 表示与时间步相关的上下文向量（下文会给出具体公式描述）（注意区别，标注的seq2seq模型只有一个上下文变量，与时间步无关）；
第i个时间步的上下文向量 $c_i$ 与encoder阶段的第j个时间步的隐藏变量的注意力得分可以由下式计算：
$e_{i,j}=a(s_{i-1},h_j)$
其中，a可以是一个任意的函数，比如一个单层的全连接层。然后，我们计算第i个时间步的上下文向量 $c_i$ 与encoder阶段的所有时间步之间的注意力得分 $e_{i,1},...,e_{i,n}$ ，然后使用softmax函数对得分进行归一化得到 $\alpha_i=(\alpha_{i,1},...,\alpha_{i,n})$ ,其中
$\alpha_{i,j}=\frac{exp(e_{i,j})}{\sum^n_{k=1}exp(e_{i,k})}$
然后，将encoder阶段的所有时间步之间的注意力得分乘以对应时间步的隐藏变量，得到第i个时间步的上下文向量 $c_i$
$c_i=\sum^n_{j=1}\alpha_{i,j}h_j$
因此，第i个时间步的上下文向量 $x_i$ 能够捕获到原始句子中与其相关的上下文信息。

2.3 Connection with translation alignment

由上一小节的分析，我们可以得到，基于attention的模型在decoder的每一个时间步，都学习到与输入句子中不同部分的重要性，因此，attention可以考虑成一种对齐方式。第i个时间步的注意力得分 $\alpha_{i,j}$ 表示源句子中与目标中的词i对齐的单词，我们可以使用注意力得分建立一个对齐表，如下图所示：
在这里插入图片描述
表格中的数字越大，说明对应的词之间的关联性越大。

2.4 Performance on long sentences

注意力机制的一个最大的好处是它可以有效地翻译长句子。随着句子长度的增加，不带注意力机制的模型将会严重丢失有效信息，导致准确率下降很快。注意力机制可以有效地解决这个问题，下图的实验可以有效地证明这个结论：
在这里插入图片描述

3 Other Models

3.1 Luong et al. NMT model

注意力机制有很多的变种，这一节描述的是Huong et al. NMT model（可参考：ffective Approaches to Attention based Neural Machine Translation by Minh-Thang Luong, Hieu Pham and Christopher D. Manning）

Global attention. global attention与前述注意力机制的一个区别是得分函数(即上文中的a函数)的不同。具体的，我们使用 $h_1,...,h_n$ 表示encoder阶段的隐藏变量， $\overline h_1,...,\overline h_n$ 表示decoder阶段的隐藏变量，我们可以得到以下的得分函数：

现在我们有了一个得分向量，我们使用可以计算上一节提到的方法(Bahdanau et al.)计算上下文向量 $c_i$ 。首先，使用softmax函数归一化得分，得到向量 $\alpha_i=(\alpha_{i,1},...,\alpha_{i,n})$ ，其中 $\alpha_{i,j}=\frac{exp(e_{i,j})}{\sum^n_{k=1}exp(e_{i,k})}$ ，因此，
$c_i=\sum^n_{j=1}\alpha_{i,j}h_j$
然后，我们拼接上下文向量和decoder的隐藏变量作为decoder第i个时间步新的隐藏变量：
$\hat h_i=f([\overline h_i,c_i])$
最后一步就是使用 $\hat h_i$ 得到decoder的预测结果。为了解决覆盖率的问题， Luong et al.使用一种input-feeding approach.具体是，将attention向量 $\hat h_i$ 也作为decoder阶段的输入，这与Bahdanau et al.中提到的使用上下文向量计算decoder阶段的隐藏变量的方法是相似的。
Local attention. 首先，模型预测输入序列的对齐位置，然后以该位置为中心，得到一个词窗口(具体多少个词由窗口大小决定)下的上下文向量。这个方法可以减少attention步的计算消耗，同时不会随着句子长度的增加而增加计算量。

3.2 Google’s new NMT

Google通过他们自己的翻译系统在NMT领域取得了重大突破（Johnson et el. 2016, “Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation”）。
Google建立了一个可以翻译任意两种语言的系统（跨领域语言模型）。这是一个seq2seq模型，输入包括词序列以及一个表明要翻译到哪种语言的token（即提供一个标志位告诉模型你要翻译成哪个国家的语言），如下图所示。模型使用共享参数来翻译成任意目标语言。
在这里插入图片描述
该多语言模型不仅能提升翻译效果，同时能够提供"zero-shot translation,"(跨域翻译，某两种语言对没在训练数据中出现guo)，举个例子，我们的训练集中只有Japanese-English translations和Korean-English translations，Google提供的该模型能够生成可信赖的Japanese-Korean translations。这表明，decoder阶段的部分内容不是针对特定语言的，模型实际上保留了输入输出句子之间的内在表示，这独立于具体的语言。

3.3 More advanced papers using attention

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention by Kelvin Xu, Jimmy Lei Ba,Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel and Yoshua Bengio. 这篇论文学习词与图像的对齐。
Modeling Coverage for Neural Machine Translation by Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu and Hang Li. 这篇论文使用一个coverage vector来帮助未来时刻的attention.
Incorporating Structural Alignment Biases into an Attentional Neural Translation Model by Cohn, Hoang, Vymolova, Yao, Dyer, Haffari. 这篇论文联合传统的语言学idea来改善attention性能。

4 Sequence model decoders

Exhaustive search 这属于暴力搜索，计算所有可能的序列，选择概率最大的一个序列作为结果。很明显，这个方法计算量太大，实际上基本不会用到。
Greedy Search 贪婪搜索，即针对每个时间步，我们选择概率最大的一个token作为当前时刻的输出，具体公式如下：
Beam search 很常用的一种方法，针对每个时间步，选择top k个候选token，候选集如下：

通俗点讲，就是当前的top k个候选集，与前面时刻的top k个候选集两两结合计算概率值（k^2个），取概率最大的top k个token作为当前时刻的结果。

5 Evaluation of Machine Translation Systems

5.1 Human Evaluation

即通过人类(eg专家等)来检查预测结果的正确性，流畅度等。这种方法得出的结论是最直接最有说服力的，但是这种方法很昂贵和低效。

5.2 Evaluation against another task

通过下游任务的效果来评估当前模型预测的结果的有效性。这也是一种可行的办法，但也会存在问题：下游任务的效果可能由很多因素决定，不一定是由翻译系统的结果决定。

5.3 Bilingual Evaluation Understudy (BLEU)

BLEU算法评估候选集与参考集的准确率得分，可以包括不同size的n-grams短语。其中，
在这里插入图片描述
表示size为n的grams的准确率得分，令 $w_n=1/2^n$ 为第n个gram的几何权重。根据上面那个式子我们可以知道当预测的候选集非常短时，会得到一个很高的分数，但这是不合理的，因此，必须对翻译结果太短的候选集做惩罚，具体如下：
在这里插入图片描述
其中， $len_{ref}$ 表示参考集的长度， $len_{MT}$ 表示候选集的长度。
因此，最终的BLEU得分公式如下：