深度学习中Transformer的原理和方法（李宏毅视频课笔记）

Y_蒋林志

已于 2022-03-15 22:07:00 修改

阅读量1.6k

点赞数 8

分类专栏：深度学习基础课笔记文章标签：深度学习机器学习算法 transformer

于 2021-08-10 15:39:44 首次发布

本文链接：https://blog.csdn.net/qq_37233260/article/details/119567199

版权

深度学习基础课笔记专栏收录该内容

18 篇文章 37 订阅

订阅专栏

文章目录

0 前言
1 RNN to CNN
2 Self-Attention
3 Seq2Seq Based on Self-Attention
- 3.1 Base Method
- 3.2 Transformer
4 Attention Visualization

0 前言

本节学习的是Transformer。Google于2017年6月发布在arxiv上的一篇文章《Attention is all you need》，提出解决sequence to sequence问题的transformer模型，用全self-attention的结构代替了lstm，这也是现在主流的BERT模型的基础。本文由整理李宏毅老师视频课笔记和个人理解所得，详细讲述了Transformer的原理及实现方法。我会及时回复评论区的问题，如果觉得本文有帮助欢迎点赞 😃。

1 RNN to CNN

一般常用的就是RNN，输入是一串Vector Sequence，输出也是一串Vector Sequence。RNN常用于处理输入是有序的情况，但是RNN有问题——不易被平行化（并行运算）。如图，就单向RNN而言，当仅需要输出 $b^4$ 时，则需要等候 $a^1, a^2, a^3, a^4$ 的输入。即使是双向的RNN， $b^1, b^2, b^3, b^4$ 也不能同时计算：
在这里插入图片描述

所以有人想使用CNN来代替RNN，输入不变，三角形代表是一个Filter（不止一个），以3个向量为一组进行扫描。多使用几组Filter也可以做到，输入是一个Sequence，对应输出是一个Sequence：
在这里插入图片描述

表面上CNN和RNN一样，但是一层CNN的一个输出只考虑三个输入的Vector，但是RNN（双向的）却要考虑整个句子。所以考虑增加CNN的层数，这样就是可以使得感受野增大，即可以考虑所有的输入。CNN的好处是可以平行化，每一个Filter（三角形）都可以单独运算，并不需要等之前或者之后的Filter计算结束。
在这里插入图片描述

2 Self-Attention

2.1 Base Method

CNN需要叠很多层，如果只要求一层就要获得所有输入的信息怎么做呢？这里就是引入Self-Attention Layer，可以完美替代双向RNN：
在这里插入图片描述
输入是 $x^i$ ，通过一个embedding（映射）W矩阵得到 $a^i$ ，然后将 $a^i$ 输入到self-attention layer，分别乘上三个不同的变换，获得三个不同的vector，即 $q^i,k^i,v^i$ ，代表不同的三种意思：

接下来要做拿每一个query $q$ 去对每一个key $k$ 做attention（4对4），以 $q^1$ 为例，如下图，得到4个attention：在这里插入图片描述
我们已知attention的本质就是匹配度，那么就需要定义匹配度的计算：
$\alpha_{1, i}=q^{1} \cdot k^{i} / \sqrt{d}$
其中d是 $q$ 和 $k$ 的维度。关于除以 $\sqrt{d}$ 有个这样的解释： $q$ 和 $k$ 的内积的值和维度d大小关系很大，这样除了之后方差就会为1了。当然定义别的匹配度也可以。

接下来通过一个Softmax Layer得到对应的概率值 $\begin{array}{llll}\hat{\alpha}_{1,1} & \hat{\alpha}_{1,2} & \hat{\alpha}_{1,3} & \hat{\alpha}_{1,4}\end{array}$ ：
在这里插入图片描述

将 $\begin{array}{llll}\hat{\alpha}_{1,1} & \hat{\alpha}_{1,2} & \hat{\alpha}_{1,3} & \hat{\alpha}_{1,4}\end{array}$ 与各自的 $v$ 相乘之后相加（ $b^{1}=\sum_{i} \hat{\alpha}_{1, i} v^{i}$ 等价于weight sum），得到一个向量 $b^1$ ：
在这里插入图片描述
这样Self-Attention就输出一个vector，而且产生这个 $b^1$ 已经考虑了所有输入的信息，如果只想考虑local的信息，只需要将 $\begin{array}{llll}\hat{\alpha}_{1,1} & \hat{\alpha}_{1,2} & \hat{\alpha}_{1,3} & \hat{\alpha}_{1,4}\end{array}$ 中不需要的变成0就可以了。需要什么信息，就获取什么信息。

因为信息是已知的，在同一个时间如下图可以计算 $b^2$ ，并不冲突：
在这里插入图片描述

总而言之，输入了 $x^1, x^2, x^3 ,x^4$ ，输出了 $b^1, b^2, b^3, b^4$ ，和RNN做了一样的工作，但是可以平行计算的：
在这里插入图片描述

2.2 Matrix Representation

接下来用矩阵的形式表述Self-Attention是怎么做平行化的。将所有的 $q$ 收集起来作为一个 $Q$ 矩阵，每一列作为一个 $q$ ，同理可以得到其他的矩阵：
在这里插入图片描述

接下来表述 $\alpha_{i,j}$ （注意还没有经过Softmax层）的计算。单独的一个 $\alpha_{1,1}$ 等于 $k^1$ 的转置乘上 $q^1$ ，为了方便表述先忽略系数 $\sqrt{d}$ ，将4个都合并起来可以得到：
在这里插入图片描述

将所有的 $\alpha_{i,j}$ 合并为一个矩阵，可以得到 $A=K^TQ$ ，经过softmax层后得到 $A^/hat$ ：
在这里插入图片描述

然后表示weight sum，就是self-attention的输出：
在这里插入图片描述

完整的过程如下，矩阵乘法可以用GPU计算：
在这里插入图片描述

2.3 Multi-head Self-attention

Multi-head Self-attention，首先使用2 head的情况举例。每一组的 $q^I, k^I, v^i$ 都分别分裂为两个。但是对应的下标 $q, k, v$ 还是去找其他相同位置的 $q, k, v$ 运算，如图：
在这里插入图片描述

相同的操作得到 $b^{i,2}$ ：
在这里插入图片描述

通过矩阵拼接可求出 $b^i$ ，也可以使用一个 $W^0$ 获得一个降维的 $b^i$ ：
在这里插入图片描述
实际在做的时候head的个数是可以调整的。

2.4 Positional Encoding

对于一般的self-attention来说，input的顺序和位置是不重要的，因为做attention的时候所有的输入都会用到，但是这样就少了位置信息。为了解决这个问题，就在 $a^i$ 旁边加上位置向量 $e^i$ ，这两个vector的维度是一样的。这个 $e^i$ 不是学出来的，而是超参数：
在这里插入图片描述
为什么是相加而不是接起来呢？这里李宏毅老师给出了一个解释：将每个原始输入 $x^i$ 下面接上一个表征位置信息的独热向量 $p^i$ ，相接的结果乘上一个变换矩阵W，这里的W可以拆解为 $W^I$ 和 $W^P$ ，最后的结果仍然是 $a^i+e^i$ ：
在这里插入图片描述

$W^I$ 部分(类似之前的 $W$ )和 $x^i$ 相乘得到了 $a^i$ ， $W^P$ 和 $p^i$ 相乘得到了 $e^i$ 。这个 $W^P$ 是可以学习的，不过最好是手动设置的，一般依据的 $W^P$ 画图出来是下面的样子：
在这里插入图片描述

3 Seq2Seq Based on Self-Attention

3.1 Base Method

Self-Attention在Seq2Seq模型里是怎么使用的？RNN实现Seq2Seq模型我们已经知道了，一个是Encoder，另外一边是Decoder，可以用来比如训练一个翻译器之类的：
在这里插入图片描述
这里的双向的RNN和Decoder的RNN都可以用self-attention替换：
下图是谷歌制作的self-attention的Encoder和Decoder的运行流程：
请添加图片描述

3.2 Transformer

这个图是Transformer的模型。输入是“机器学习“，输出是”machine learning“：
在这里插入图片描述
1）先看Encoder的部分。输入input $x^i$ 经过一个embedding 提取特征之后变成之前的 $a^i$ ，然后与位置编码 $p^i$ 在这里加入，会进入灰色的框中。再输入到一个self-attention layer中，输出 $b$ 之后，经过Add & Norm layer，这个层就是将 $b$ 和self-attention layer的输入会加起来，加起来之后做一个Layer normalization，可以简单理解为做一个标准化。Feed forward 层可以弥补self-attention的非线性（这里不展开）。

2）再看Decoder部分。Input部分是前一个time step产生的output。这里的第一层是一个叫带masked 的self-attention layer，masked意识是做attention的时候只会关注到已经产生的sequence。然后和Encoder的输出一起做Attention。接下来经过一系列变换后输出：
在这里插入图片描述
以上就是完整的Transformer的流程。

4 Attention Visualization

将self-attention的结果做可视化操作。当结尾的单词是“tired“时，”it“ attend 更多的是”animal“；如右边的图，当结尾单词是”wide“的时候，”it“ attend 更多的是”street“。
在这里插入图片描述
而对于Multi-head Attention来说，一个word可以attend更多的其他词汇：

输入一个文章集合，使用transformer生成一篇文章：

在深度上使用RNN的原理将transformer叠加：

Self-Attention GAN
大意是图像处理时为了获得更多的图像信息，也可以使用Self-Attention：
在这里插入图片描述

Y_蒋林志

关注

8
点赞
踩
9

收藏

觉得还不错? 一键收藏
10
评论
深度学习中Transformer的原理和方法（李宏毅视频课笔记）

文章目录0 前言1 RNN to CNN2 Self-Attention2.1 Base Method2.2 Matrix Representation2.3 Multi-head Self-attention2.4 Positional Encoding3 Seq2Seq Based on Self-Attention3.1 Base Method3.2 Transformer4 Attention Visualization0 前言本节学习的是Transformer。Google于2017年6月发
复制链接

扫一扫