2019年CS224N课程笔记-Lecture 14: Transformers and Self-Attention

本文链接：https://blog.csdn.net/rhjlife/article/details/107662005

资源链接：https://www.bilibili.com/video/BV1r4411

（np带个妹子让课堂不尴尬～）

正课内容

可变长数据的表示，也就是序列学习的基本使用组件，主要包括神经机器翻译，摘要，问答等项目

通常使用 RNN 学习变长的表示：RNN 本身适合句子和像素序列，LSTMs, GRUs 和其变体在循环神经网络模型中占主导地位。

但是序列计算抑制了并行化（RNN也是这个缺点），没有对长期和短期依赖关系进行显式建模。
我们想要对层次结构建模，RNNs(顺序结构)看起来很浪费！

卷积神经网络

层次上并行化很简单，利用局部依赖，不同位置的交互距离是线性或是对数的，远程依赖需要多层（讲的有点快没怎么听懂555555）

注意力

NMT 中，编码器和解码器之间的 Attention 是至关重要的，那么为什么不把注意力用于表示呢？

Self-Attention

任何两个位置之间的路径长度都是常数级别的，门控 / 乘法的交互，可以并行化（每层）
可以完全替代序列计算吗？基本CNN在序列任务上注意力都可以实现，对于RNN也是有很多优点，完全替代不至于吧，但是已经非常有优势了～

Text generation/文本生成

以前的工作

自我注意力分类与回归：

Parikh et al. (2016), Lin et al. (2016)

RNNs自我注意力：

Long et al. (2016), Shao, Gows et al. (2017)

循环注意力：

Sukhbaatar et al. (2015)

The Transformer

我们主要是用注意力关注计算表示的输入，想象一下在英语德语翻译中，我们有我们的话，注意力的排序是不变的，所以我们只需要改变自己的位置，它不会影响我们的输出，所以我们往其中添加位置表示。（说实话没怎么听懂，也可能是翻译的不太准确的原因）

在编码器方面，我们有一个自我注意力层，只是重新计算表示，对于每个位置同时使用注意力，然后我们有一个前反馈层也有残差连接。每一层输入都会有一个残余连接，只是需要激活

在解码器上，我们使用自我注意力来模仿语言模型，并且使用自我注意力来模仿语言模型的方式是增强通过掩盖你可以看到的位置的因果关系，所以基本上，第一个位置是不能往前看的/这是非法的，

（说实话听着有点懵～这里等我把这个课程都过完后，自己去详细查阅不懂的地方再回来补充吧～）

各类模型的复杂度

由于计算只涉及到两个矩阵乘法，所以是序列长度的平方，当维度比长度大得多的时候，非常有效

卷积和自我注意力的对比

上例中，我们想要知道谁对谁做了什么，通过卷积中的多个卷积核的不同的线性操作（不同的线代表卷积出不同的信息），我们可以分别获取到 who, Did what？, To whom？的信息。

但是对于 Attention 而言，如果只有一个Attention layer，那么对于一句话里的每个词都是同样的线性变换，不能够做到在不同的位置提取不同的信息（所以需要加位置信息），这就是多头注意力的来源，灵感来源于 CNN 中的多个卷积核的设计

一层注意力的时候明显不足的，也就是把注意力层当成特征探测器，一个颜色可以探测一个问题，Who, Did What, To Whom 分别拥有注意力头（如下图所示），而且（注意力头/上述不同颜色的线）还可以并行计算，这样就可以模拟一个卷积了。为了效率，减少注意力头的维度，并行操作这些注意力层，弥补了计算差距

相对位置的不同线性变换（这个图好像没说，但是这句话说过，应该就是该图内容）

在输入和输出上具有不同线性变换的平行注意层（这个图好像没说，但是这句话说过，应该就是该图内容）

当我们把它应用到机器翻译的时候，效果非常不错

但我们并不一定比 LSTM 取得了更好的表示（理论上LSTM可以模拟任何函数），只是Translation更适合 SGD/随机梯度下降，可以更好的训练，我们可以对任意两个词之间构建连接

很多工作是在tensor2tensor中推出的，随着JAX的到来未来可能发生变化，一个来自亚马逊的框架Sockeye等有很多好的序列到序列模型（不知道是否有Translation）

残差连接的重要性

（这个之前我们就知道残差连接很重要了，例如缓解梯度消失、支持更深的模型等～）

如果我们切断了残差连接，注意力分布如上图中中间的图一样，事实上它无法选择对角线。它（具有残差网络的）应该是具有非常强的对角焦点，所发生的事情就是：位置信息最初添加在了模型的输入处，通过残差连接将位置信息传递到每一层，（而且后续层没有位置概念，这句话不是很明白），可以不需要再每一层都添加位置信息。再说一种情况。切断残差连接，但是每层注入位置信息，结果如上图右图，虽然出现了对角线，他们通过特征提取提取到了这个特点（就是注意力所实现的特征被提取到了）