自然语言处理之Transformer模型

西西先生666

已于 2022-07-19 11:34:45 修改

阅读量766

点赞数

分类专栏：自然语言处理文章标签： transformer 自然语言处理深度学习

于 2022-05-24 16:32:25 首次发布

本文链接：https://blog.csdn.net/qq_40216188/article/details/124876980

版权

自然语言处理专栏收录该内容

11 篇文章 0 订阅

订阅专栏

本文深入探讨Transformer模型的编码器部分，包括位置嵌入、自注意力机制、残差连接和前馈网络。位置嵌入通过sin和cos函数提供位置信息，自注意力机制则允许模型捕捉句子中的依赖关系。每个Transformer块结合Add&Norm和FeedForward层，形成有效的信息处理单元。

摘要由CSDN通过智能技术生成

一、Transformer原理

针对Transformer进行机器翻译，编码器模块输入“Why do we work？”，需要输出“为什么工作？”：
1）将待翻译的句子输入到编码器中，通过编码器得到隐藏层，输入到解码器；
2）解码器初始输入“start”，结合隐藏层最先翻译得出“为”，将“为”落下来作为解码器输入继续翻译，得出“什”，以此类推，直到输出“end”表示翻译任务结束。
transformer编码器和解码器结构基本一致，搞清楚编码器即可搞清楚解码器的结构。

1.1 编码器原理

编码器结构如下图所示，分为4个部分进行讨论：

1.1.1 位置嵌入或位置编码（Positional Encoding）

由于transformer模型没有循环神经网络的迭代操作，所以我们必须提供每个字的位置信息给transformer，才能识别出语言中的顺序关系；
位置嵌入Positional Encoding的维度为 $[max\ sequence\ length, embedding\ dimension]$ ，嵌入的维度等于词向量的维度， $max\ sequence$ 属于超参数，指定限定的最大单个句长。一般以字为单位训练transformer模型，所以不需要进行分词，就是需要初始化字向量为 $embedding\ dimension]$ ，其中 $vocab\ size$ 为总的字数， $embedding\ dimension$ 为字向量的维度，也是每个字的数学表达；
论文中使用 $s in$ 和 $cos$ 函数的线性变换来提供给模型位置信息：
$PE(_{pos, 2i})=sin(\frac{pos}{10000^{\frac{2i}{d_{model}}}})$
$PE(_{pos, 2i+1})=cos(\frac{pos}{10000^{\frac{2i}{d_{model}}}})$
上式中， $p os$ 指的是句中字的位置，取值范围是 $max\ sequence\ length]$ ， $i$ 指的是词向量的维度，取值范围是 $embedding\ dimension]$ ，针对 $embedding\ dimension$ 中奇数位置和偶数位置的维度序号，分别采用sin和cos进行位置编码。

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import math

def get_positional_encoding(max_seq_len, embed_dim):
    #初始化一个positional encoding
    #max_seq_len：最大序列长度
    #embed_dim：字嵌入维度
    positional_encoding=np.array([
        [pos/np.power(10000,2*i/embed_dim) for i in range(embed_dim)]
        if pos!=0 else np.zeros(embed_dim) for pos in range(max_seq_len)
    ])
    positional_encoding[1:,0::2]=np.sin(positional_encoding[1:,0::2])
    positional_encoding[1:,1::2]=np.cos(positional_encoding[1:,1::2])
    return positional_encoding

在这里插入图片描述

plt.figure(figsize=(8,5))
plt.plot(positional_encoding[1:,1],label='dimension 1')
plt.plot(positional_encoding[1:,2],label='dimension 2')
plt.plot(positional_encoding[1:,3],label='dimension 3')
plt.legend()
plt.xlabel('sequence length')
plt.ylabel('period of positional encoding')

在这里插入图片描述

上图可知，位置嵌入 $embedding\ dimension$ 维度上随着维度序号的增大，周期变化会越来越慢，从而产生一种包含位置信息的纹理，位置嵌入函数的周期从 $2\pi$ 到 $10000*2\pi$ 变化，而每一个位置在 $embedding\ dimension$ 维度上都会得到不同周期的sin和cos函数的取值组合，可以产生独一无二的纹理位置信息，模型从而学到位置之间依赖关系和自然语言的时序特征。

1.1.2 自注意力机制（self attention mechanism）

对于一个句子 $X$ ，它的维度是 $[batch\ size, sequence\ length]$ ，即 $X\in R^{batch\ size*sequence\ length}$ ，对句子中包含的文字进行词嵌入并与位置嵌入相加，得到最终 $e mb e dd in g$ 的维度为 $[batch\ size, sequence\ length, embedding\ dimension]$ ，即进行如下计算：
$X_{embedding}=Embedding Lookup(X)+PositionalEncoding$
得到 $X_{embedding}\in R^{batch\ size*sequence\ length*embedding\ dimension}$
接下来为了学到多重含义的表达，对 $X_{embedding}$ 做线性映射，即分配三个权重， $W_Q, W_K, W_V\in R^{embed.dim*embed.dim}$ ，线性映射之后行程三个矩阵 $Q, K, V$ ，和线性变换之前 $X_{embedding}$ 的维度一致。
$Q=Linear(X_{embedding})=X_{embedding}W_Q$
$K=Linear(X_{embedding})=X_{embedding}W_K$
$V=Linear(X_{embedding})=X_{embedding}W_V$

#矩阵相乘
X: [batch_size, len, embedding_size]
W: [embedding_size, hidden_dimension]
XW = [batch_size, len, hidden_dimension]

在这里插入图片描述

下面准备进行多头注意力机制（将矩阵分割成多个head），即Multi head attention，引入超参数head的数量 $num\ of\ heads$ ，即参数 $h$ ，注意embedding dimension必须整除h，因为我们要把embedding dimension分割成h份。分割之后 $Q, K, V$ 的维度变为 $[batch\ size, sequence\ length, h, embedding\ dimension/h]$ ，之后我们把 $Q, K, V$ 的 $sequence\ length$ 和 $h$ 进行转置，转置后的 $Q, K, V$ 的维度变为 $[batch\ size, h, sequence\ length, embedding\ dimension/h]$
拿出其中一个head进行演示， $Q$ 的一个head点乘 $K$ 的一个head的转置，得到 $c 1 c 1$ 表示句子中第一个字和第一个字的注意力，以此类推。结果矩阵的第一行表示句子中第一个字与句子中其他的字之间的相关程度；第二行表示句子中第二个字与句子中其他的字之间的相关程度。对角线表示字本身之间的相关程度。对求出的矩阵中每一行进行归一化，采用softmax进行归一化，即每个字与句子中的其他字的相关性的和为1。
向量点积的含义是向量越相似点积越大。同理，如果2个字的意思比较相近，那么对应的字向量的点积就会越大；如果意思不相关，点积越小。
注意力矩阵计算如下图所示：

$V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$
上式中就是注意力机制，我们先求出 $QK^T$ 。也就是求出注意力矩阵，然后用注意力矩阵给 $V$ 加权， $\sqrt{d_k}$ 是为了把注意力矩阵变为标准正态分布，使得 $so f t ma x$ 归一化后的结果更加稳定，以便反向传播时候获取平衡的梯度。最后得到的注意力矩阵尺寸为 $[batch\ size, h, sequence\ length, embedding\ dimension/h]$ 。
一个小trick：Attention Mask：
在上面self attention计算过程中，我们通常使用mini batch来计算，即一次计算多句话，就是 $X$ 的维度是 $[batch\ size, sequence\ length]$ ，其中 $sequence\ length$ 是句长，而一个 $mini\ batch$ 是由多个不等长的句子组成，我们需要按照这个 $mini\ batch$ 中最大的句长对剩余的句子进行 $p a dd in g$ ，一般采用0填充。
这是在进行 $so f t ma x$ 的时候会产生问题，回顾 $so f t ma x$ 函数：
$\sigma(z_i)=\frac{e^{z_i}}{\sum_{j=1}^K e^{z_j}}, e^0=1$

在这里插入图片描述

这样 $so f t ma x$ 中被padding的部分就参与了运算，就等于是让无效的部分参与了运算，为了不让无效的区域参与运算，我们一般给无效的padding区域添加一个负数的偏置，即：
$z_{illegal}=z_{illegal}+bias_{illegal}，bias_{illegal}\Rightarrow -\infty$
这样的话在进行 $so f t ma x$ 之前无效区域取值为0，在进行 $so f t ma x$ 之后无效区域取值为0 $e^{z_{illegal}}=0$ ，从而避免了无效的区域参与计算。

1.1.3 Add&Norm

残差连接：
我们将经过注意力矩阵加权后的 $V$ ，即 $A tt e n t i o n (Q, K, V)$ 与 $X_{embedding}$ 相加做残差连接，此时它们的维度为 $[batch\ size, sequence\ length, embedding\ dimension]$ ：
$X_{embedding}+Attention(Q, K, V)$
在之后的运算里，每经过一个模块的运算，都把之前的值与运算后的值相加，从而得到残差连接，训练的时候可使梯度直接走捷径反传到最初始层。
$X + S u b L a yer (X)$
Layer Norm：
Layer Normalization的作用是把神经网络中隐藏层其中的一行归一化为标准正态分布，以加快训练速度，加快收敛的作用，以矩阵的行（row）为单位求均值：
$\mu_i=\frac{1}{m}\sum_{i=1}^m x_{ij}$
以矩阵的行（row）求方差：
$\sigma_i^2=\frac{1}{m}\sum_{j=1}^m (x_{ij}-\mu_i)^2$
然后用每一行的每一个元素减去这行的均值，再除以这行的标准差，从而得到归一化后的数值，式中 $\epsilon$ 是为了防止分母为0。
$LayerNormal(x)=\alpha\cdot\frac{x_{ij}- \mu_i}{\sqrt{\sigma_i^2+\epsilon}}+\beta$
引入 $\alpha$ 和 $\beta$ 两个可训练的参数来弥补归一化过程中损失的信息， $\cdot$ 点注意表示元素相乘，其中 $\alpha$ 和 $\beta$ 的维度与 $x$ 的维度一致。