简单理解Transformer结构

最新推荐文章于 2024-08-01 10:42:20 发布

我最怜君中宵舞

最新推荐文章于 2024-08-01 10:42:20 发布

阅读量1.4k

点赞数 2

分类专栏：自然语言处理深度学习机器学习文章标签： nlp 自然语言处理神经网络深度学习机器学习

本文链接：https://blog.csdn.net/qq_35169059/article/details/101437070

版权

深度学习同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

机器学习

9 篇文章 0 订阅

订阅专栏

自然语言处理

6 篇文章 4 订阅

订阅专栏

文章目录

Encoder-decoder结构
Transformer结构
Transformer的子结构
Transformer详析
Transformer整体结构
其他问题
- transformer训练与测试过程的不同
- mask的原理

Transformer结构是谷歌于2018年提出用于nlp的深度学习模型结构，同时成为了之后bert的基础，那么transformer到底是什么样子的，它的提出解决了什么问题，带来了什么变化，我们在下面详细解释。

Encoder-decoder结构

机器翻译遵循的模型一般是encoder-decoder结构，结构图如下所示
Alt

encoder是编码器，通常是RNN结构或者CNN结构（Image Captioning或者TextCNN），但是RNN或者CNN结构往往存在一些问题：
- RNN结构由于存在前后依赖，无法进行并行计算
- CNN难以捕捉全局信息
decoder是解码器，通常是RNN结构

因为以上的问题，Google提出使用attention结构来代替RNN和CNN的结构，这便是Transformer

Transformer结构

我们先来看Transfomer的结构图
在这里插入图片描述
如图左边部分便是transformer的encoder结构，右边便是decoder结构。突然看到这张图，可能很多人都很懵，那我们在下面的内容里面从各个子结构来详细解释这张图

Transformer的子结构

自注意力机制(Self attention)

如果你还不熟悉attention机制的话，请看这篇博文：
快速理解NLP中的Attention机制
我们现在把attention机制看作是：一个查询( $Q$ )到一系列键值对( $\to V$ )的映射,其中 $Q(q_1,q_2,q_3....,q_n)$ $\in \mathbb R^{(n, d_k)}$ $K(k_1,k_2,k_3....,k_m)$ $\in \mathbb R^{(m, d_k)}$ $V(v_1,v_2,v_3....,v_m)$ $\in \mathbb R^{(m, d_v)}$ _注意此处 $Q, K$ _的向量长度是一样的。

所以attention的步骤主要包含3步：

$QK^T$ 这一步就是将 $Q$ 中的隐层向量和 $K$ 中的隐层向量相乘，得到n*m维的矩阵，表示二者的相似度
$\frac {softmax（QK^T）}{\sqrt {d_k}}$ 对 $QK^T$ 进行softmax操作，得到n*m维的矩阵，表示输入的每个词在 $q_i$ 上的权重， $\sqrt d_k$ 是避免结果太大的scaled操作
$\frac {softmax（QK^T）}{\sqrt {d_k}}V$ ,得到n* $d_v$ 的矩阵，其中每一列表示一个decoder的RNN单元的输入

当 $Q = K = V$ 时，这时的注意力机制就被称为自注意机制了，我们假设一个句子是 $x_1,x_2,x_3,……,x_t)=Q=K=V$

$x_1{x_k}^T$ 就是 $x_1$ 和 $x_k$ 的点积,表示的是二者的相似程度
$\frac {softmax（x_1K^T）}{\sqrt {d_k}}$ 表示 $x_1$ 这个词和其他词相似度权重
${x_1}'=\frac {softmax（x_1K^T）}{\sqrt {d_k}}V$ 表示新的 $x_1$ 作为接下来的输入

采用self-attention作为神经网络的输入结构比使用RNN好在：

每一层的计算复杂程度大大的降低
避免了RNN前后的依赖，使得可以快速并行计算
避免了太长句子的词语前后依赖给RNN带来的性能问题

Mask

实际的attention因为下面两个原因可能会遇到一些问题

神经网络输入的单个样本要求是等长的
为了保证句子长度一致，较短的句子我们可能采取补0的操作

补0的向量并没有实际含义，因此不能参与到attention的权重分配里面来，那我们该怎么做呢？请看下面的代码

In [2]: def softmax(x):
    ...:     x_exp = np.exp(x)
    ...:     return x_exp/np.sum(x_exp)
    ...:

In [3]: q = np.array([0.9, 0.7, 0.2])

In [4]: k = np.array([[0.2, 0.1, 0.7],[-100000,-100000,-100000]])

In [5]: softmax(np.dot(q, k.T))
Out[5]: array([1., 0.]))

明显当 $k_i$ 里面的元素都趋向于负无穷大时，第 $i$ 个词语的权重会接近于0
这就是mask操作，将补0的词语进行同上的处理使之无法参与attention计算
在这里插入图片描述
将Mask和注意力机制结合后的计算过程如上图所示，论文中称之为Scaled Dot-Product Attention

多头注意力(multi-head attention)

为了让模型有更多的表示子空间，transformer结构引入了multi-head attention。具体操作是在 $Q, K, V$ 进行attention操作之前，先对attention进行线性的变换

假设我们的输入是 $(Q, K, V)$ , 而且 $Q = K = V$ $\in \mathbb R^{(m,d_{model})}$ $\in \mathbb R^{(m,d_{model})}$ $\in \mathbb R^{(m,d_{model})}$

首先我们先进行线性变换，假设进行attention操作的是 $Q^*，K^*， V^*)$ 其中：

$Q^* = Q{W_i}^Q$ ${W_i}^Q \in \mathbb R^{(d_{model}, d_k)}$ $Q^* \in \mathbb R^{(m, d_k)}$
$K^* = K{W_i}^K$ ${W_i}^K \in \mathbb R^{(d_{model}, d_k)}$ $K^* \in \mathbb R^{(m, d_k)}$
$V^* = V{W_i}^V$ ${W_i}^V \in \mathbb R^{(d_{model}, d_v)}$ $K^* \in \mathbb R^{(m, d_v)}$

然后, 进行 $h$ 次线性变换，得到 $h$ 个attention的结果：

$head_i = Attention(Q{W_i}^Q, K{W_i}^K, V{W_i}^V)$
$head_i \in \mathbb R^{(m, d_v)}$

最后, 将上面的结果进行拼接，并乘 ${W^O}$

$MultiHead(Q,K,V) = Concat(head_1, head_2,......,head_h)W^O$
Concat后的向量的向量空间是 $\mathbb R^{(m, hd_v)}$
$W_O \in \mathbb R^{(hd_v, d_{model})}$

因此各位可以看到在经过Multi-head attention后，输出的维度会变回 $m, d_{model})$ ，可以继续作为下一个self-attention的输入
在这里插入图片描述

位置编码(Positional Encoding)

上面的self-attention结构有一个重要的问题，那就是它忽略了词语之间的位置信息，不能体现词语的先后顺序。因此，论文引入了Positional Encoding的机制。即给每个词语一个位置向量。位置向量的计算方式如下：
在这里插入图片描述
$P E (p o s, k)$ 指的是第pos个词向量的第 $k$ 个元素的值
最后将词向量和位置向量进行拼接或者相加形成新的向量

Feed Forward

这其实就是对矩阵的每一个数字进行一个变换，可以理解为一维的卷积， $x$ 是矩阵中的每个数
在这里插入图片描述

Transformer详析

在这里插入图片描述
我们从encoder的左边的底部开始看

接收输入后首先进行Positional Encoding，形成新的输入 $I$ (即 $Q ， K ， V$ )
此处有一个残差连接，将 $I$ 传递给Multi-Head的后面
Q,K,V进行多头注意力的处理，然后和之前的残差相加以及规范化
上一步的结果进入feed forward层，这里也有个残差连接
输出的结果继续和残差相加以及规范化得到encoder的输出

我们再来看decoder部分

最低端是输入，需要提醒的是，这里的输入在训练和测试过程是不一样的，下面有详细说明
接下来进入Masked Multi-Head Attention来做第一层的attention的处理，这里的masked和前面提到的mask是一样的，为了避免生成当前词时看到后面的词，具体怎么实现的，后面会有说明
依然是加上残差连接传过来的值，然后作为Q进入下一层attention
这一层attention接受encoder的输入作为K，V，然后进行attention（这里不是自注意），然后进行下一个Feed Forward计算
继续加上残差连接，然后进入一个线性变换最后通过softmax输出当前句子各个词的概率分布

以上便是Transformer的整体结构

Transformer整体结构

真实的Transformer翻译模型的结构并非上述的一个encoder结构连接一个decoder结构，encoder和decoder都各有六个，连接方式如下图所示：
在这里插入图片描述

其他问题

transformer训练与测试过程的不同

transformer的训练和测试过程是有所不同的，体现在如下几个方面：

训练是运算是并行的，而测试时运算是串行的
训练时decoder的输入其实是整个groudtruth，在生成第 $i$ 个词时通过mask来使训练看不到 $i$ 之后的词;测试时这个时间步的decoder的输入是之前时间步的decoder生成的内容
训练过程中，一个句子各个词的概率分布其实是通过上面的宏观结构一次生成的；在测试的时候上面的结构一次只能生成一个词的概率分布

mask的原理

mask其实让很多人难以理解，包括在attention阶段的mask以及masked multi-head attention，我接下来会写一篇新的博客详细介绍。

参考文档：attention is all you need
整体结构图片来源
 其他图片来源

我最怜君中宵舞

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
简单理解Transformer结构

Transformer结构是谷歌于2018年提出用于nlp的深度学习模型结构，同时成为了之后bert的基础，那么transformer到底是什么样子的，它的提出解决了什么问题，带来了什么变化，我们在下面详细解释。Encoder-decoder结构机器翻译遵循的模型一般是encoder-decoder结构，结构图如下所示encoder是编码器，通常是RNN结构或者CNN结构（Image C...
复制链接

扫一扫

专栏目录