Stanford CS224n 第十讲：神经机器翻译和注意力模型_两个神经网络神经机器翻译模型-CSDN博客

本文链接：https://blog.csdn.net/u011828519/article/details/85273947

1. 神经机器翻译模型（NMT）的四大成功之处

2.多语言翻译模型

多语言翻译模型的发展
Google提出的多语言翻译模型

3. Attention机制在神经机器翻译中的应用

4.翻译模型解码器的三种策略

祖先抽样（Ancestral Sampling）
贪婪搜索（Greedy Search）
集束搜索（Beam Search）
$\newline$
$\newline$

上一节课中我们已经讲解了传统的机器翻译模型和基于RNN的神经机器翻译模型，所以这一节课前面的部分就不再赘述。

1. 神经机器翻译模型（NMT）的四大成功之处
2014年来，神经机器翻译的发展趋势远远超过了传统的机器翻译模型，那么其中的原因是什么呢？
在这里插入图片描述
（1）End-to-End Training。端到端的训练方式（此处详解），一个损失函数就可以同时训练模型的所有参数。我个人理解是由于神经网络的强大拟合学习能力才成就了端到端的模型，使人们能够不用经历苦逼的特征工程，而是将raw数据直接扔给神经网络，利用这个强大的黑盒直接得到结果。

（2）Distributed Representation。分布式表示，其实和one-hot向量来理解更容易一些，如果我们采用one-hot向量来表示数据中的某个单词（维度为字典大小），那么我们根本不能刻画两个单词的相关性，因为他们的内积都为0；而如果我们采用低维的分布式向量来表示一个单词，即低维空间中每个维度都有一定的数值代表其在这个维度的特征的重要程度，由于我们把每个单词的特征都分散到了各个维度，那么我们就可以衡量两个单词或者词组的相关性。

（3）Better exploitation of context。神经机器翻译模型能够更好的利用上下文；传统的机器翻译模型比如4-garam，5-garam，只能利用部分信息。

（4）More fluent text generation。神经机器翻译模型能够生成流畅的翻译文本（即使翻译的效果很差），我觉得还是由于神经网络强大的拟合学习能力，给他足够的数据，他就能学习到一些语法知识，让翻译文本更加流畅。而传统的机器翻译模型需要人为的去定义好多语法规则，让模型去学习，这很低效且不如神经网络方便、傻瓜式。

2.多语言翻译模型

多语言翻译模型的发展

（这一部分我觉得Christopher老师讲的和亚裔小姐姐讲的没有衔接，感觉两个人讲的完全是两个技巧，但是Christopher老师讲的技巧要比小姐姐讲的low啊，纯属个人理解）
前面我们一直在介绍一对一的翻译模型，那么我们如何实现多语言翻译模型呢？
（1）刚开始的时候人们仍然采用一对一模型，只不过面对多少个源语言-目标语言对儿，就训练多少个encoder-decoder对儿，如下图所示。比如80中语言互相翻译，我们就需要训练80*79个模型（简直吓人）。
在这里插入图片描述
（2）后来人们又尝试去采用一对多模式（多种语言共享一个编码器，构建多个解码器）和多对一模式（构架多个编码器，共享一个解码器），如下图所示：

（3）后面Christopher老师提到了采用‘桥接’技术，就是不管有多少种语言对，先将源语言翻译成一种中间语言（比如英语），然后再将中间语言翻译成目标语言。这样就减少了了模型的训练量。比如我们有80种语言需要互相翻译，那我们就可以训练80个编码器和80个解码器（除去转换过程中英文的解码和编码器）。

Google提出的多语言翻译模型

最后，课程中漂亮的亚裔小姐姐介绍了Google是如何来实现多语言翻译的（参考论文在此）。框架如下：
在这里插入图片描述

Google的模型和普通的NMT模型没啥区别，但是他们对于不同的语言，即共享encoder，又共享decoder。如果两个都共享，他们怎么区分语言呢？此时他们就采用了一个小tric，解决了大问题—在源语言前加标签，简直666：
在这里插入图片描述
课程中讲，Google这个模型还有以下优点：

模型简单，仅仅一对encod-decoder就解决了多语言的翻译问题。
对于训练数据比较少的语言对（源语言-目标语言），和其他训练数据多的语言对一起训练，训练数据少的语言对也能获得不错的翻译结果，根据模型分析，可能是他们共享同一个encoder-decoder参数。
该模型还有zero-shot的翻译功能，即他可以翻译训练过程中没有遇到的语言对。例如我们训练了，葡萄牙语→英语、英语→西班牙语，那么我们就可以得到翻译质量不错的葡萄牙语→西班牙语。

3. Attention机制在神经机器翻译中的应用
在普通的encoder-decoder模型中，我们通过编码器将源语言压缩到一个向量Y中，然后将Y作为解码器的输入，但是在语句过长时面临一个问题，那就是可能解码过程中，某个时刻解码器不知道该翻译源语言中对应的哪一部分内容，因此提出了attention机制。
在这里插入图片描述
attention机制其实和传统的机器翻译模型中的分配对齐过程类似，就是将要翻译的内容和源语言中的一些部分对应起来。

下面我们来看看attention机制是怎么样起作用的：
（1）通过解码器中上一时刻传入的隐向量 $h_{t-1}$ 和编码器中每个单词输出的隐向量通过某种计算方式，计算得分（其实就是相关性）

（2）对（1）中计算的得分进行归一化，其实就是将其转化为0-1之间的概率值，用来刻画相关性。

（3）通过计算到了 $h_{t-1}$ 与源语言中各个隐向量的相关性 $a_t$ ，将源语言的隐向量以 $a_t$ 为权重，进行加权求和，得到 $c_t$ 。

这样就可以不简单的使用一个隐层状态Y作为全部的语义表示了，而是用到了编码器全部隐状态的全部信息。
具体score的计算方式，课程中计算了以下三种：

课程中比较了三种方法：
（1）直接将解码器某时刻的隐向量 $h_t$ 与编码器的每个单词的隐向量进行点积。
（2）在（1）的基础上加了一个attention矩阵，充分考虑了 $h_t$ 与 $h_s$ 的交叉影响， $W_a$ 需要模型学习其参数。其实我觉得这个计算socre的公式很像度量学习，即 $W_a$ 是一个计算两者相似度的一个度量，考虑到了各个方面的交叉影响而计算的相似度，感兴趣的可以去看看度量学习（Metric Learning）。
（3）简单的拼接 $h_t$ 与 $h_s$ ，接 $h_t$ 与 $h_s$ 没有产生交叉影响；然后经过一层的神经网络也不会有很好的拟合，所以这个方法也没（2）好。
局部attention的使用
如果句子过长，在计算attention的过程中会产生很大的开销，因此发明了局部attention机制，如下图所示：

-attention机制在实际应用中的效果：
在这里插入图片描述
由上图我们可以明显看出，LSTM在30个词内的翻译效果还是不错的，说明LSTM的记忆力极限可能是30个词左右。句子长度增加超过30个词后，attention机制的模型表现不错，而且稳定。

4.翻译模型解码器的三种策略
当decoder进行解码时，目的是每个单词的候选集中选出来一句翻译质量最好的，但是如果采用穷举法的话，就会造成指数级的计算量，是不可行的。那么下面我们就来看看有什么方法可以解决这个问题。

祖先抽样（Ancestral Sampling）
其实就是以t时刻前面所有的词为条件的概率分布里面，选取t时刻的单词，一直重复这样的过程，直到最后一个单词选取完毕。
虽然此方法比穷举法节省时间，但是此方法是按照概率随机讯取得单词，因此，同一个句子可能会得到不同的翻译，所以这个方法out。
贪婪搜索（Greedy Search）
贪婪搜索，顾名思义就是在每一次选取单词的时候都根据目前条件概率选取概率最大的，其实就是和祖先抽样在决策的时候不一样了。祖先抽样是在遵循条件概率的情况下随机抽取，而贪婪搜索实在遵循条件概率的情况下选择概率最大的。
虽然这样在时间和空间上都很有效率，但是这面临着贪婪搜索的通病（缺点），可能得不到全局的最优解。
集束搜索（Beam Search）

不要看他公式写的天花乱坠，其实就是每个t时刻，针对这个时刻所有的可能单词，选取k的概率最大的单词，k就是beam size。此处有具体例子的详细过程