Transformer详解讲解

捂好小马甲

已于 2024-05-29 09:55:43 修改

阅读量1.2k

点赞数 13

分类专栏： transformer 文章标签： transformer 深度学习人工智能

于 2024-04-20 21:06:28 首次发布

本文链接：https://blog.csdn.net/D_YueChu_F/article/details/138011596

版权

transformer 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

视频链接：Transformer 李宏毅
论文链接：https://arxiv.org/pdf/1706.03762.pdf
参考文章：史上最小白之Transformer详解_Stink1995的博客-CSDN博客
 自然语言处理笔记
 Self-attention理解

Transformer

Transformer是一个编码器-解码器网络架构的模型，最早的编码器解码器网络架构时Seq2Seq模型，用于机器翻译等任务，后来逐渐在计算机视觉领域中流行。

Transformer主体框架

在这里插入图片描述

Transformer是第一个完全依靠自注意力计算输入和输出表示的传导模型，无需使用RNN或卷积等其他结构。如图所示是Transformer的整体架构，Transformer是一个典型的编码器-解码器结构，其中编码器组由六个编码器构成，解码器组也由六个解码器构成。编码器由多头自注意力机制和全连接前馈网络两个子层构成，每个子层周围采用残差连接，然后进行层归一化处理。输出为 $L a yer N or m (x + S u b l a yer (x))$ 。解码器除了有上述的两个子层还具有一个多头注意力机制，对编码器信息进行融合。我们还修改解码器堆栈中的自注意力子层，以防止在训练过程中关注到后续位置。在训练过程中，我们将所有的真值都输入到解码器中，这种掩码机制保证了对位置i的预测只能依赖于小于i位置的已知输出，不会用到后续真值。在验证过程中，只能得到小于i位置的输出，因此不需要掩码机制。由于自注意力机制无法获取位置信息，因此在输入的时候我们需要加入一个位置编码信息，在Transformer这篇论文中，我们采用的是正余弦编码。

基本术语

注意力机制

可以描述为将一组查询和一组键、值映射到一组输出的方法。其中查询、键、值和输出都是向量。输出计算为值的加权和，其中分配给每个值的权重由查询与相应键的点乘计算。通俗来说注意力机制指的是对一组输入序列，我们分别乘上矩阵 $W^Q、W^K、W^V$ ，得到 $q, k, v$ 三个向量，序列中每个token的 $q$ 要与其余token的 $k$ 相乘，采用 $\sqrt{d_k}$ 进行缩放。再经过softmax操作，得到的数值与 $v$ 进行相乘，得到一个新的特征向量，其中 $k ， v$ 来自于编码器，而 $q$ 来自于解码器。在实践中，我们同时计算一组查询的注意力函数，并将其打包成矩阵 $Q$ ，键、值也打包成矩阵 $K, V$ 则此时矩阵的输出为 $softmax(\frac{QK^T}{\sqrt{d_k} } )V$

自注意力机制

又是也称为帧内注意力，是一种将单个序列的不同位置联系起来，以计算序列的表示的注意力机制。注意力机制中 $k ， v$ 来自于编码器，而 $q$ 来自于解码器。而自注意力机制的 $q, k, v$ 都来自于编码器或者解码器本身，因此它称作是自注意力机制。

多头注意力机制
在这里插入图片描述
注意力机制中，对于输入矩阵（一组序列，序列中的每一个token都是一个向量），我们只采用一组 $W^Q、W^K、W^V$ ，得到 $Q, K, V$ 三个矩阵。而多头注意力机制中采用多组 $W^Q、W^K、W^V$ ，得到多组 $Q, K, V$ 矩阵，然后每组分别计算得到一个Z矩阵，将得到的多个Z矩阵进行拼接。在Transformer中我们采用了8组不同的 $W^Q、W^K、W^V$ 。

全连接前馈网络

$FFN(x)=max(0,xW_1+b_1)W_2+b_2$
该全连接层由两个线性变化和一个ReLu激活函数组成，其中max就是我们所说的ReLu激活函数，x是经过多头（自）注意力机制的输出。这两层网络目的是将输入的Z映射到更加高维的空间中，然后经过非线性函数ReLu进行筛选，筛选完在变回到原来的维度。我们也可以将其看作两个核大小为1de卷积，其中输入输出的维度是512，内层的维度是2048。

层归一化
在神经网络进行训练之前，都需要对输入数据进行归一化处理，可以加快训练的速度，并且提高训练的稳定性。
层归一化是在同一个样本中不同神经元之间进行归一化，而BN是指在同一个batch中的不同样本之间的同一位置的神经元进行归一化。

复杂度计算

在这里插入图片描述

Sequential Operations：序列操作数，该值表明下一步计算必须要等前面多少步完成，该值越小，并行度越高。
Maximum Path Length:最大路径长度，积距离为n的两个阶段传递信息所经历的路径长度，表征了存在长距离依赖的结点在传递信息时，信息丢失的程度，长度越长，两个节点之间越难交互，信息丢失越严重。

自注意力机制的计算复杂度

$softmax(\frac{QK^T}{\sqrt{d_k} } )V$

$Q, K, V$ 的输入大小为 $n\times d$ ，其中 $Q, K, V$ 的获取是 $x\in R^{n\times d}$ 与矩阵 $W^Q\in R^{d\times d}$ 相乘，此时的计算复杂对为 $O(nd^2)$ ，但是只考虑注意力机制这部分不考虑。n表示输入个数，d表示特征长度。
$Q\cdot K^T$ 用于计算相似度 $n\times d$ 与 $\times n$ 相乘得到 $n\times n$ 的矩阵，最后的计算复杂为 $O(n^2d)$
softmax计算，对每行做softmax，复杂度为 $O (n)$ ，则n行的复杂度为 $O(n^2)$
$softmax(\frac{QK^T}{\sqrt{d_k} } )V$ : $n\times n$ 与 $n\times d$ 相乘得到 $n\times d$ 的矩阵，最后的计算复杂为 $O(n^2d)$

因此self-attention的时间复杂度为 $O(n^2d)$

多头自注意力机制的复杂度计算

$\begin{aligned}\mathrm{MultiHead}(Q,K,V)&=\mathrm{Concat}(\mathrm{head}_{1},\ldots,\mathrm{head}_{\mathrm{h}})W^{O}\\\mathrm{where}\quad\mathrm{head}_{\mathrm{i}}&=A(QW_{i}^{Q},KW_{i}^{K},VW_{i}^{V})\end{aligned}$

$Q, K, V$ 的输入大小为 $n\times \frac{d}{h}$
$Q\cdot K^T$ 用于计算相似度 $n\times \frac{d}{h}$ 与 $\frac{d}{h} \times n$ 相乘得到 $n\times n$ 的矩阵，单个头的计算复杂为 $O(n^2 \frac{d}{h})$ ，共有h个头，所以最终的计算复杂度为 $O(n^2d)$ 。
softmax计算，对每行做softmax，复杂度为 $O (n)$ ，则n行的复杂度为 $O(n^2)$
$softmax(\frac{QK^T}{\sqrt{d_k} } )V$ : $n\times n$ 与 $n\times \frac{d}{h}$ 相乘得到 $n\times \frac{d}{h}$ 的矩阵，单个头的计算复杂为 $O(n^2\frac{d}{h})$ ，最后的计算复杂为 $O(n^2d)$
加权和: concat拼接起来形成 $n\times d$ 的矩阵，之后经过线性映射 $d\times d$ ，计算复杂度为 $O(nd^2)$

因此self-attention的时间复杂度为 $O(n^2d)$ ，多头自注意力机制比原始的自注意力机制多了加权和拼接的计算复杂度。

受限的自注意力机制复杂度计算

$Q, K, V$ 的输入大小为 $r\times d$ 。
- $Q\cdot K^T$ 用于计算相似度 $n\times d$ 与 $\times n$ 相乘得到 $n\times n$ 的矩阵，最后的计算复杂为 $O(n^2d)$
softmax计算，对每行做softmax，复杂度为 $O (r)$ ，则n行的复杂度为 $O(r^2)$
加权和: $\times d$ 与 $\times r$ 相乘得到 $r\times r$ 的矩阵，最后的计算复杂为 $O(r^2d)$

因为输入的个数为n，限制范围为r的一组复杂度为 $O(r^2d)$ ，总共有 $\frac{n}{r}$ 组，总的计算复杂对为 $O (n r d)$

RNN的计算复杂度

$h_t=f(Ux_t+Wh_{t-1})$

$U,x_t$ 的大小分别为 $d\times m$ 和 $\times 1$ ，计算复杂度为 $O (m d)$ ，其中m表示的是单个输入序列的特征长度，d表示的是隐藏层的特征长度
$W,h_{t-1}$ 的大小分别为 $h\times h$ 和 $h\times 1$ ,计算复杂度为 $O(d^2)$
总共具有n个输入，因此RNN的计算复杂度为 $O(nd^2)$