深度学习基础篇之Transformer网络

崔中江

已于 2023-08-30 22:01:05 修改

阅读量212

点赞数

分类专栏：深度学习算法自然语言处理文章标签：深度学习 transformer 人工智能

于 2023-08-29 21:36:28 首次发布

本文链接：https://blog.csdn.net/Fluentwater/article/details/132569930

版权

深度学习算法同时被 2 个专栏收录

5 篇文章 15 订阅

订阅专栏

自然语言处理

1 篇文章 0 订阅

订阅专栏

Transformer的大名已经听过很久了，一直没有找到机会详细了解该模型的原理及架构，趁着这次要复习的机会把transformer的原理彻底搞懂。本文参考了沐神在B站的论文讲解以及一些其他人的transformer文章。

1、为什么要提出Transformer？

transformer最初源自Google团队的一篇论文：《Attention is all you need》，文章的目的是解决机器翻译中的问题。机器翻译是一种端到端的模型，input一个序列，output一个序列，如下图所示。
在这里插入图片描述
主流的文本翻译使用的是encoder-decoder结构，结构内使用RNN或者CNN进行特征提取和序列生成。
RNN的特点：从左往右一步步计算，对第 $t$ 个状态 $h_t$ ，由 $h_{t-1}$ 和当前词 $t$ 计算。所带来的缺点如下：

难以并行
过早的历史信息可能会被丢掉
时序比较长的时候， $h_t$ 存储了很多历史信息，内存开销很大

CNN的特点：CNN相对于RNN的好处是可以并行计算，但是CNN对于较长的序列难以建模。因为卷积计算的时候一般是一个比较小的窗口，比如33的窗口。如果2个像素相隔的比较远，需要用很多33的卷积层，一层层的叠加上去，才能把间隔很远的2个像素联系起来。

综上，本文提出的transformer架构使用注意力机制，使得机器翻译任务的准确性大幅提升，同时提高了并行能力。其主要效果如下：

英-德：提高2个BLEU
英-法：达到了最好的效果，而且模型训练所耗的资源也很少

2、Transformer的模型结构

Transformer的整体结构如下图所示：
在这里插入图片描述
简单介绍下上图，图中的结构可以清晰的分成左右两个部分，左边的是encoder（将输入特征转化为模型认识的形式）、右边的是decoder（输出最终的预测结果）。

把inputs进行embedding化
与inputs的位置向量相加形成最终的inputs向量
输入向量导入到encoder中
- inputs向量进入到多头注意力机制中
- 从注意力层进入到MLP层
encoder的计算结果输入到decoder中作为K值和V值
- outputs实际上是decoder之前输出的结果
- 对outputs进行embedding化
- 与outputs的位置embedding加一起形成outputs向量
- outputs向量输入到masked多层注意力机制中
- masked的结果作为Q，encoder的结果作为K和V，一起输入到多头注意力机制中
- 再经过一个MLP层
通过一个线性层
最后对结果做一个Softmax处理后输出预测结果

总结：Transformer是一个比较标准的encoder-decoder架构。encoder和decoder的内部结构不同，encoder的输出作为decoder的输入。

2.1 Encoder和Decoder结构

Encoder结构：重复6次下图的内容就是论文里的一个完整encoder结构。
在这里插入图片描述
每个layer有2个sub-layers。

第一个sub-layer是multi-head self-attention
第二个sub-layer是MLP

每个sub-layer的输出都会做残差连接和LayerNorm，转化成公式就是 $L a yer N or m (x + S u b l a yer (x))$ ，sub-layer代表self-attention或者MLP。
layernorm相比batchnorm的不同在于：batchnorm是按照特征位置进行归一化、layernorm是从样本维度进行归一化。对于本文的机器翻译领域，由于序列的长度变化较大，按照特征进行归一化会出现一些样本没有该特征一些有该特征，归一化时的均值和方差变化较大。

2.2 注意力机制

注意力函数是将query和key-value对映射为一个输出的函数，其中所有的query、key、value和output都是向量。也可以说成output是value的加权和，value的权重由query和key的相似度决定。

2.2.1 Scaled Dot-Product Attention

不同的相似度函数对应的是不同的注意力机制，本节的注意力机制是最简单的一种，该函数的具体计算方法是对每一个query和key做内积，把内积的结果作为相似度。
$Attention_{score}=Softmax(\frac{query*key}{\sqrt{d_k}})*V$
query和key做内积：如果两个向量的大小一致，那么内积的值越大，向量的相似度就越高。如果内积的值为0，则这两个向量正交，没有相似度。

$d_k$ query和key的长度，其作用是防止Softmax函数的梯度消失：当 $d_k$ 不是很大的时候，÷不÷都可以，但是当值比较大的时候，query和key内积的结果差距会变大。导致最大值的softmax值更加靠近1，剩下的值更加靠近0，值就会更加向两段靠拢，计算梯度的时候就会比较小。

对于decoder部分的attention来说，该如何做mask呢？

为了避免在t时刻看到t时刻之后的输入，只需要在计算权重的时候把t时刻之后的query与key的乘积结果替换成一个很大的负数，如0.00000000000001

2.2.2 Multi-head Attention

前面讲的是一个注意力函数，在实际的使用中不会仅仅使用一个注意力函数，而是把query、key和value全部经过一个线性投影生成WQ、WK和WV。投影h次，然后再做h次的注意力函数，把每个函数的输出拼接到一起，再投影后得到最终的输出，具体结构如下图所示：
在这里插入图片描述
输入是原始的Q、K和V，把他们输入到一个线性层中，线性层会把他们投影到一个较低的维度，然后再经过左图的注意力函数计算。

由于线性层的投影会投h次，每次都会得到一个输出，把h个输出concat到一起，最后做一个线性投影得到最终多头注意力机制的输出结果。

这里就有一个问题出现了，为什么一样的注意力机制我要重复h次？为什么要在多头注意力机制前后加一个线性投影层？

首先回答第一个问题，单注意力函数虽然可以学习到序列的权重，但是也只能学习到一种权重。多头注意力机制会关注序列的不同模式，学习到不同的内容，方便我们更全面的理解序列。比如翻译“I like play basketball.”，对于‘play’而言，有的注意力函数更关注’I’，有的更关注’basketball’，会让我们更好的翻译这段话。
对于第二个问题，当我们引入多头注意力机制后，如果不做线性投影，每个注意力函数的Q、K和V都是一样的，没什么好学习的内容，多头注意力也发挥不了作用。一旦引入一个线性投影层之后，每一层的Q、K和V都是不一样的，每一层的投影函数W也是不一样的，可以根据不同的目标学习不同W。

2.3.3 注意力机制在模型中的应用

本文的模型涉及三种不一样的注意力层，分别是encoder里面的多头注意力层、decoder里面的多头注意力层和mask多头注意力层。

Encoder的注意力层
假设句子的长度是n，每个单词的词向量维度是d，则encoder的输入是一个n*d的矩阵。
在这里插入图片描述
Encoder的注意力层有三个输入，分别是query、key和value。一根线进来，复制了三下，同样的输入即作为query也是key和value，所以叫做自注意力机制。

输入了n个query，每个query对应一个输出，也就是n个输出。输出是value的加权和，当query和key的相似度越高，value的权重越大。不考虑多头机制和有线性投影的情况下，输出是输入的加权和，权重是当前向量与其它向量的相似度。

Decoder的masked多头注意力层
在这里插入图片描述
masked体现在模型看不到 $t$ 时刻以后的decoder输入，也就是图左下角黄圈内的绿色权重是0

Decoder的多头注意力层
和前面两个注意力层不同的是，这里的注意力层不再是self-attention，注意力层的key-value来自encoder的输出而非decoder的输入。
在这里插入图片描述
query来自decoder里masked multi-head attention层的输出。

2.3 Position-wise Feed-Forward Networks

其实就是一个MLP，之所以加上Position-wise是由于MLP对每个词单独作用一次，且每个词使用的MLP是一样的。这里的MLP结构是两层网络，W1层把维度扩展至2048，最后W2层投影缩回到512维，方便后续的操作。

假设一种最简单的情况：没有残差连接、没有layernorm、没有投影，看看transformer和RNN的区别。

模型对比	Transformer	RNN
不同点（对序列的处理）	Attention对输入做加权和，然后进入MLP，每个输入点独立计算输出（以为已经包含了序列信息）	从上一时刻的信息输出作为下一时刻的输入
相同点（语义转化）	用一个线性层或MLP做语义空间转化	用一个线性层或MLP做语义空间转化
示意图