Transformer(二)--论文理解：transformer 结构详解

置顶吕秀才

已于 2024-09-03 12:59:39 修改

阅读量1.4w

点赞数 93

分类专栏：自然语言处理深度学习文章标签：自然语言处理 transformer 深度学习

于 2020-12-10 12:26:23 首次发布

本文链接：https://blog.csdn.net/nocml/article/details/110920221

版权

深度学习同时被 2 个专栏收录

9 篇文章 31 订阅

订阅专栏

自然语言处理

6 篇文章 6 订阅

订阅专栏

转载请注明出处：https://blog.csdn.net/nocml/article/details/110920221

本系列传送门：
Transformer(一)–论文翻译：Attention Is All You Need 中文版
 Transformer(二)–论文理解：transformer 结构详解
 Transformer(三)–论文实现：transformer pytorch 代码实现
 Transformer(四)–实现验证：transformer 机器翻译实践

BERT系列传送门：
BERT(一)–论文翻译：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT(二)–论文理解：BERT 模型结构详解

1. transformer的基本结构

在这里插入图片描述

2. 模块详解

2.1 模块1：Positional Embedding

为什么位置信息不能用简单的位置序号标示，而都是做一些复杂的变换？这是和我们使用的核心方法有关的，我们在transformer架构中，提取特征信息，采用的是attention机制，具体的如原始的transformer架构中，使用的中self attention, 其中计算attention score时，使用的点积运算，所以对于序列中的每个输入均会做两两的点积运算，试想两个序号做点积运算能得到什么信息? 能一下子想到的就是两个数的点积大，两个数的均值可能也大。但这并没有多大作用，即没有表示出两个位置的距离信息，也表示不出先后顺序。所以我们要找的是一种表示方法，经过点积运算后，能表明两个位置的大小和先后顺序（《Attention is all you need》原文中的方法只能表示出相对距离，不能表示出先后顺序），这也是指导我们寻找位置表示方法的基本思路。（如果再考虑多一点，就涉及到了外推，这里不做展开。）

$PE$ 模块的主要做用是把位置信息加入到输入向量中，使模型知道每个字的位置信息。对于每个位置的 $PE$ 是固定的，不会因为输入的句子不同而不同，且每个位置的 $PE$ 大小为 $1 * n$ (n为word embedding 的dim size)，transformer中使用正余弦波来计算 $PE$ ，具体如下：
$PE_{(pos,2i)} = sin(pos/10000^{2i/d_{model}}) \\ PE_{(pos,2i+1)} = cos(pos/10000^{2i/d_{model}})$

$p os$ 代表的是一个字在句子中的位置,从0到名字长度减1，是下图中红色的序号。
$i$ 代表的是dim 的序号，是下图中蓝色的序号:
- 当 $i$ 为偶数时，此位置的值使用 $sin(pos/10000^{2i/d_{model}})$ 来填充。
- 当 $i$ 为奇数时，些位置的值使用 $cos(pos/10000^{2i/d_{model}})$ 来填充
  
  实现代码：

class PositionalEncoding(nn.Module):
    "Implement the PE function."

    def __init__(self, d_model, dropout, max_len=5000):
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)

        # Compute the positional encodings once in log space.
        pe = torch.zeros(max_len, d_model).float()
        position = torch.arange(0, max_len).unsqueeze(1).float()
        div_term = torch.exp(torch.arange(0, d_model, 2).float() *
                             -(math.log(10000.0) / d_model)).float()
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0)
        self.register_buffer('pe', pe)

    def forward(self, x):
        x = x + Variable(self.pe[:, :x.size(1)],
                         requires_grad=False)
        return self.dropout(x)

至于为什么选择这种方式，论文中给出的解释是：

我们之所以选择这个函数，是因为我们假设它可以让模型很容易地通过相对位置来学习,因为对任意确定的偏移 $k$ , $PE_{pos+k}$ 可以表示为 $PE_{pos}$ 的线性函数。
理解：
由 $sin(\alpha+\beta)=sin\alpha cos\beta + sin\beta cos\alpha\\ cos(\alpha+\beta)=cos\alpha cos\beta - sin\beta sin\alpha$
可得：
$\begin{aligned} PE(pos+k,2i)&=sin((pos + k)/10000^{2i/d_{model}})\\ &=sin(pos/10000^{2i/d_{model}}) cos(k/10000^{2i/d_{model}}) \\&+ sin(k/10000^{2i/d_{model}}) cos(pos/10000^{2i/d_{model}}) \end{aligned}$
把下面的式子代入上式，
$PE_{(pos,2i)} = sin(pos/10000^{2i/d_{model}}) \\ PE_{(pos,2i+1)} = cos(pos/10000^{2i/d_{model}})$
推出：
$PE (p os + k, 2 i) = PE (p os, 2 i) PE (k, 2 i + 1) + PE (k, 2 i) PE (p os, 2 i + 1)$
同理可得：
$\begin{aligned} PE(pos+k,2i+1)&=cos((pos + k)/10000^{2i/d_{model}})\\ &=cos(pos/10000^{2i/d_{model}}) cos(k/10000^{2i/d_{model}}) \\& -sin(pos/10000^{2i/d_{model}}) sin(k/10000^{2i/d_{model}})\\ &=PE(pos,2i+1)PE(k,2i+1)-PE(pos,2i)PE(k,2i) \end{aligned}$
以 $PE (p os + k, 2 i) = PE (p os, 2 i) PE (k, 2 i + 1) + PE (k, 2 i) PE (p os, 2 i + 1)$ 为例，当 $k$ 确定时: $PE (k, 2 i + 1 ）$ 、 $PE (k, 2 i)$ 均为常数， $PE(pos+k,2i)=PE(pos,2i) * 常数_{2i+1}^k + 常数_{i}^k * PE(pos,2i+1)$
上式即为上文中所说的线性函数。我们知道，每个位置（pos）的PE值均不同，因此我们可以根据PE的值区分位置，而由上面的线性函数，我们可以计量出两个位置的相对距离。
我们还尝试使用预先学习的positional embeddings 来代替正弦波，发现这两个版本产生了几乎相同的结果。我们之所以选择正弦曲线，是因为它允许模型扩展到比训练中遇到的序列长度更长的序列。
理解：
这个点很好理解，就是说了下正弦波的优点。这里我着重讲下正弦波存在的问题。在transformer架构里，我们计算两个特征的关系用的是点积的的方式（因为使用了Dot-Product Attention）。所以两个PE的关系（距离）实际是以它们的点积来表示的。举例如下 $^{[1]}$ ：
我们令 $c_i=1/10000^{2i/d_{model}}$ ，则第 $t$ 及 $t + 1$ 个位置的positional embedding 是：
$PE_t={\left[ {\begin{matrix} sin(c_0t)\\ cos(c_0t)\\ sin(c_1t)\\ cos(c_1t)\\ \vdots\\ sin(c_{\frac{d}{2}-1}t)\\ cos(c_{\frac{d}{2}-1}t) \end{matrix}} \right]^T}$
$PE_{t+k}={\left[ {\begin{matrix} sin(c_0(t+k))\\ cos(c_0(t+k))\\ sin(c_1(t+k))\\ cos(c_1(t+k))\\ \vdots\\ sin(c_{\frac{d}{2}-1}(t+k))\\ cos(c_{\frac{d}{2}-1}(t+k)) \end{matrix}} \right]^T}$
则： $\begin{aligned} PE_tPE_{t+k}&=\Sigma_{j=0}^{\frac{d}{2}}[sin(c_jt)sin(c_j(t+k)+cos(c_jt)cos(c_j(t+k)]\\ &=\Sigma_{j=0}^{\frac{d}{2}}cos(c_j(t-(t+k))\\ &=\Sigma_{j=0}^{\frac{d}{2}}cos(c_jk) \end{aligned}$
上式的第二行是使用了 $cos(\alpha-\beta)=sin\alpha sin\beta + cos\alpha cos\beta$ 这个公式进行的变换。从最终的结果我们可以看出，两个embedding的距离度量只与间隔 $k$ 有关，而 $cos$ 函数关于y轴对称，即 $cos x = cos (- x)$ ，所以， $PE_tPE_{t+k}$ 的度量只与 $k$ 的大小有关，与谁在前，谁在后无关。即，经过dot-attention机制后，我们把positional embedding中的顺序信息丢失了。所以，从这方面看，正弦波这种位置PE并不太适合用在transformer结构中，这也可能是后面的bert，t5都采用的基于学习的positional embedding。（注：模块3会把顺序信息传递下去，但我们还是在算法的核心处理上丢失了信息。）

2.2 模块2：Multi-Head Attention

这个模块是transformer的核心，我们把这块拆成两部分来理解，先讲下其中的Scaled Dot-Product Attention（缩放的点积注意力机制），再讲Multi-Head。

2.2.1 Scaled Dot-Product Attention

我们先看下论文中的 Scaled Dot-Product Attention 步骤，如下图：
在这里插入图片描述
下面我们对着上面的图讲一下，具体的看下每步做了什么。

首先说下Q,K,V，在transformer的encoder中，输入只有一个，即输入向量与位置向量的和，我们暂且叫做input_sum。Q,K,V就是这个input_sum通过三个linear层映射而来。如下图

由于linear的输入和输出均为 $d_{model}$ ,所以Q,K,V的大小和input_sum的大小是一致的。

MatMul: 这步实际是计算的 $Q*K^T$ , 如下图：

从上图可以看出 $Q*K^T$ 的结果 $scores$ 是一个 $L * L$ 的矩阵（L为句字长度），其中scores中的 $[i, j]$ 位置表示的是 $Q$ 中的第 $i$ 行的字和 $K^T$ 中第 $j$ 列的相似度（也可以说是重要度，我们可以这么理解，在机器翻译任务中，当我们翻译一句话的第 $i$ 个字的的时候，我们要考虑原文中哪个位置的字对我们现在要翻译的这个位置的字的影响最大）。
Scale ：这部分就是对上面的 $scores$ 进行了个类似正则化的操作。
$scores=\frac{scores}{\sqrt{d_q}}$ （这里要说一下 $d_{q}$ ，论文中给出的是 $d_{h}$ ，即 $d_{model}/h$ , 因为论文中做了multi-head，所以 $d_q=d_{h}$ ），这里解释下除以 $\sqrt{d_q}$ 的原因，原文是这样说的：“我们认为对于大的 $d_k$ ，点积在数量级上增长的幅度大，将softmax函数推向具有极小梯度的区域 $^4$ 。为了抵消这种影响，我们对点积扩展 $\frac{1}{\sqrt{d_k}}$ 倍”。
Mask: 这步使用一个很小的值，对指定位置进行覆盖填充。这样，在之后计算softmax时，由于我们填充的值很小，所以计算出的概率也会很小，基本就忽略了。(从另一个角度来看：softmax计算公式： $\frac{e^{x_i}}{\sum_{i=1}^{k}{e^{x_i}}}$ ,当 $x = 0$ 时(padding的值)，分子 $e^{0}=1$ ，这可不是一个很小的值。所以为了降低padding位置的影响，我们也要把padding位置的数值替换成更小的值，如 $e^9$ )，mask操作在encoder和decoder过程中都存在，在encoder中我们是对padding的值进行mask，在decoder中我们主要是为了不让前面的词在翻译时看到未来的词，所以对当前词之后的词的信息进行mask。下面我们先看看encoder中关于padding的mask是怎么做的。

在这里插入图片描述
如上图，输入中有两个pad字符， $scores$ 中的x都是pad参与计算产生的，我们为了排除pad产生的影响，我们提供了如图的mask，我们把scores与mask的位置一一对应，如果mask的值为0，则scores的对应位置填充一个非常小的负数（例如： $e^9$ ）。最终得到的是上图最后一个表格。说了这么多，其实在pytorch中就一句话。

scores = scores.masked_fill(mask == 0, -1e9)

注：上图中的mask只有后两列为0，并没有把下两行也都设置成0,并没有完全覆盖scores矩阵中所有的“x”。

SoftMax: 对scores中的数据按行做softmax。这样就把权得转换成了概率。
MatMul: 这步就是使用softmax后的概率值与 $V$ 矩阵做矩阵乘法。

附上代码：

def attention(query, key, value, mask=None):
    d_k = query.size(-1)
    scores = torch.matmul(query, key.transpose(-2, -1)) \
             / math.sqrt(d_k)
    if mask is not None:
        scores = scores.masked_fill(mask == 0, -1e9)
    p_attn = F.softmax(scores, dim = -1)
    return torch.matmul(p_attn, value)

2.2.2 Multi-Head

这里我们看看multi-head attention中的 multi-head是什么意思。我们假设 $d_{model}=512$ , $h = 8$ （8个头）,说下transformer中是怎么处理的：
前面我们说过了， $Q$ 、 $K$ 、 $V$ 三个矩阵是encoder的输入经过三个linear映射而成，它们的大小是 $[B, L, D]$ (batch size, max sentence length, embedding size), 这里为了说的清楚些，我们暂时不看 $[B]$ 这个维度。那么 $Q$ 、 $K$ 、 $V$ 的维度都为 $[L, D]$ ，multi-head就是在 $[D]$ 维度上对数据进行切割，把数据切成等长的8段（ $h = 8$ ），这样 $Q$ 、 $K$ 、 $V$ 均被切成等长的8段，然后对应的 $Q$ 、 $K$ 、 $V$ 子段组成一组，每组通过 Scaled Dot-Product Attention 算法计算出结果，这样的结果我们会得到8个，然后把这8个结果再拼成一个结果，就multi-head的结果。具体过程如下图：

在这里插入图片描述

2.3 模块3：ADD

此模块做了个类似残差的操作，但与残差不同的是，不是用输入减去输出，而是用输入加上输出。（指Multi-Head Attention模块的输入和输出），具体操作就是把模块2的输入矩阵与模块2的输入矩阵的对应位置做加法运算。

2.4 模块4：Layer Normalization

不论是layer normalization还是batch normalization，其实做的都是一件事情，都是根据 $\frac{x - \overline{x}}{std + eps} + b$ 对 $x$ 的分布进行调整。不同的是 $\overline{x}$ 和 $s t d$ 的计算方式不同。如下图：
在这里插入图片描述
batch normalization的 $\overline{x}$ 和 $s t d$ 是延粉色方向计算的，而layer normalization是延蓝色方向计算的。如果兄弟们去面试，可能面试官会问为什么这里没有使用BN，而使用了LN,我的理解是，BN对batch size的大小是有要求的，一般batch size越大，计算出的 $\overline{x}$ 越好，而我用12G内存的GPU，跑transformer的模型时，batch size最多也就设置到32。batch size还是偏小的。所以使用与batch size无关的layer normlization。从另一个角度讲，batch size之所以小，是因为我们的embedding size 大，而layer normalization 正好是延这个方向做的，所以正好使得layer normalization计算的更稳定。

2.5 模块5：Feed Forward NetWork

Feed Forward NetWork 翻译成中文叫前馈网络，其实就是MLP。我们这里不纠结于FFN的定义，我们直接看下transformer里是怎么实现的。如下图，我们先把输入向量从512维（ $d_{model}$ ）映射到2048维，然后再映射到512维。实现时，就是使用两个linear层，第一个linear的输入是512维，输出是2048维，第二个linear的输入是2048，输出是512。
在这里插入图片描述

2.6 模块6：Masked Multi-Head Attention

上文已讲了Multi-Head Attention，而且在讲 Scaled Dot-Product Attention 时也讲了mask机制，此模块的区别在于maked的策略不同，在encoder中我们是把padding给masked掉，这里我们除了要考虑padding,还要考虑预测时的未来变量问题，换句话说，我们是用一句话中的前 $N - 1$ 个字预测第 $N$ 个字，那么我们在预测第 $N$ 个字时，就不能让模型看到第N个字之后的信息，所以这里们把预测第 $N$ 个字时，第 $N$ (包括)个字之后的字都masked掉。我们假设预测序列为’i like this apple’，则我们要做如下的mask(粉色的0实际上是没有的，这里表示对应的位置为pad的值)。
在这里插入图片描述

2.7 模块7: Multi-Head Attention

模块7 与上文模块2（encoder 中的 Multi-Head Attention）代码实现上完全相同，区别在于模块2 只有一个输入，模块2把此输入经过三个linear映射成 $Q$ 、 $K$ 、 $V$ ，而模块7的输入有两个，一个是decoder的输入经过第一个大模块传过来的值（为了方便，我们叫它input_x），一个是encoder最终结果（我们暂叫它input_memory）, 模块7是把input_x通过一个linear映射成了 $Q$ ，然后通过两个linear把input_memory映射成 $K$ 、 $V$ ，其它的与模块2完全一致。

2.8 模块8：Linear

此模块的目的是把模型中transformer decoder的输出从 $d_{model}$ 维度映射到词表大小的维度。linear本身也比较简单，这里不再细讲了。
在这里插入图片描述

2.9 模块9：SoftMax

此模块会把上层linear的输出转化成概率，对应到某个字的概率。

3. transformer在机器翻译任务中的使用

在《Attention is All You Need》这篇文章中，是把transformer做为一个特征提取器放在一个Encoder-Decoder（下文用Encoder-Stack和Decoder-Stack，用以和transformer的encoder, decoder区分）架构中的，具体细节见下图：
在这里插入图片描述

上面的图片把整个结构基本都画出来了，这里再说下训练时的数据走向及流程：
1) 数据 $X$ 输入到Encoder-Stack中，得到输出变量 $encoder\_output$
2) $encoder\_output$ 做为 $Key$ 和 $Va l u e$ 的原始输入输入到Decoder-Stack中，Decoder-Stack的Query为上一轮Decoder-Stack的输出。
具体流程见下图：
在这里插入图片描述

这里我提一下decoder stack的输入（上图中的Query），前面说过了，在transformer中，decoder的核心思想是用一个句子中的前 $N - 1$ 个字，预测第 $N$ 个字，但在预测第一个字的时候，前面没有字，这时我们可以在每句话前面加上一个固定的开始标志(bos), 这样相当于把整个句子右移了一位。