2.2 Transformer相关原理-图解transformer

最新推荐文章于 2024-05-16 20:13:19 发布

Alex好好干饭

最新推荐文章于 2024-05-16 20:13:19 发布

阅读量1.8k

点赞数 2

分类专栏： NLP transformer 文章标签： python nlp 自然语言处理

本文链接：https://blog.csdn.net/weixin_37734833/article/details/119788411

版权

在这里插入图片描述

1. 前言

Transformer 依赖于 Self Attention 的知识。Attention 是一种在深度学习中广泛使用的方法，Attention的思想提升了机器翻译的效果。Attention之前已经分享过，不清楚的可以看图解Attention。

Transformer模型由谷歌17年在机器翻译中提出，且在两个翻译任务上都达到了SOTA效果。

这个模型的其中一个优点，就是使得模型训练过程能够并行计算。在 RNN 中，每一个 time step （时间步）的计算都依赖于上一个 time step 的输出，这就使得所有的 time step 必须串行化，无法并行计算，如下图所示。
在这里插入图片描述
而在 Transformer 中，所有 time step 的数据，都是经过 Self Attention 计算，使得整个运算过程可以并行化计算。

Transformer 使用了 Seq2Seq任务中常用的结构——包括两个部分：Encoder 和 Decoder。一般的结构图，都是像下面这样。
在这里插入图片描述

2.从整体宏观来理解Transformer

首先以机器翻译任务为例，从上节我们知道Seq2seq模型经常用于解决翻译任务。如下图，输入输出都是序列，中间Seq2seq模型则是由多个编码器和解码器组成。
在这里插入图片描述
左边是编码部分(encoding component)，右边是解码部分(decoding component)。

其中编码部分是多层的编码器(Encoder)组成（Transformer 的论文中使用了 6 层编码器，这里的层数 6 并不是固定的，你也可以根据实验效果来修改层数）。同理，解码部分也是由多层的解码器(Decoder)组成（论文里也使用了 6 层的解码器）。

encoder由多层编码器组成，每层编码器在结构上都是一样的，但不同层编码器的权重参数是不同的。每层编码器里面，主要由以下两部分组成

Self-Attention Layer (自注意力层)
Feed Forward Neural Network（前馈神经网络，缩写为 FFNN）

输入编码器的文本数据，首先会经过一个 Self Attention 层，这个层处理一个词的时候，不仅会使用这个词本身的信息，也会使用句子中其他词的信息（你可以类比为：当我们翻译一个词的时候，不仅会只关注当前的词，也会关注这个词的上下文的其他词的信息）。本文后面将会详细介绍 Self Attention 的内部结构。

接下来，Self Attention 层的输出会经过前馈神经网络。

同理，解码器也具有这两层，但是这两层中间还插入了一个 Encoder-Decoder Attention 层，这个层能帮助解码器聚焦于输入句子的相关部分（类似于 seq2seq 模型中的 Attention）。
在这里插入图片描述

3. 从细节理解Transformer

3.1 Transformer 的输入

和通常的 NLP 任务一样，我们首先会使用词嵌入算法（embedding algorithm），将每个词转换为一个词向量。实际中向量一般是 256 或者 512 维。为了简化起见，这里将每个词的转换为一个 4 维的词向量。

那么整个输入的句子是一个向量列表，其中有 3 个词向量。在实际中，每个句子的长度不一样，我们会取一个适当的值，作为向量列表的长度。如果一个句子达不到这个长度，那么就填充全为 0 的词向量；如果句子超出这个长度，则做截断。句子长度是一个超参数，通常是训练集中的句子的最大长度，你可以尝试不同长度的效果。

3.2 Encoder(编码器)

编码器（Encoder）接收的输入都是一个向量列表，输出也是大小同样的向量列表，然后接着输入下一个编码器。

第一个/层编码器的输入是词向量，而后面的编码器的输入是上一个编码器的输出。
在这里插入图片描述

3.3 Self-Attention 整体理解

假设我们想要翻译的句子是：

The animal didn’t cross the street because it was too tired

这个句子中的 it 是一个指代词，那么 it 指的是什么呢？它是指 animal 还是street？这个问题对人来说，是很简单的，但是对算法来说并不是那么容易。

当模型在处理（翻译）it 的时候，Self Attention机制能够让模型把it和animal关联起来。

同理，当模型处理句子中的每个词时，Self Attention机制使得模型不仅能够关注这个位置的词，而且能够关注句子中其他位置的词，作为辅助线索，进而可以更好地编码当前位置的词。

如果你熟悉 RNN，回忆一下：RNN 在处理一个词时，会考虑前面传过来的hidden state，而hidden state就包含了前面的词的信息。而 Transformer 使用Self Attention机制，会把其他单词的理解融入处理当前的单词。
在这里插入图片描述
如上图可视化图所示，当我们在第五层编码器中（编码部分中的最后一层编码器）编码“it”时，有一部分注意力集中在“The animal”上，并且把这两个词的信息融合到了"it"这个单词中。

3.4 Self-Attention 的细节

计算Query 向量，Key 向量，Value 向量(Q K V)

计算 Self Attention 的第 1 步是：对输入编码器的每个词向量，都创建 3 个向量，分别是：Query 向量，Key 向量，Value 向量。这 3 个向量是词向量分别和 3 个矩阵相乘得到的，而这个矩阵是我们要学习的参数。

注意，这 3 个新得到的向量一般比原来的词向量的长度更小。假设这 3 个向量的长度是 $d_{key}$ ，而原始的词向量或者最终输出的向量的长度是 512（这 3 个向量的长度，和最终输出的向量长度，是有倍数关系的）。关于 Multi-head Attention，后面会给出实际代码。这里为了简化，假设只有一个 head 的 Self-Attention。
在这里插入图片描述
上图中，有两个词向量：Thinking 的词向量 x1 和 Machines 的词向量 x2。以 x1 为例，X1 乘以 WQ 得到 q1，q1 就是 X1 对应的 Query 向量。同理，X1 乘以 WK 得到 k1，k1 是 X1 对应的 Key 向量；X1 乘以 WV 得到 v1，v1 是 X1 对应的 Value 向量。

Query 向量，Key 向量，Value 向量是什么含义呢？

其实它们就是 3 个向量，给它们加上一个名称，可以让我们更好地理解 Self-Attention 的计算过程和逻辑含义。继续往下读，你会知道 attention 是如何计算出来的，Query 向量，Key 向量，Value 向量又分别扮演了什么角色。

计算 Attention Score（注意力分数）

这些分数，是通过计算 “Thinking” 对应的 Query 向量和其他位置的每个词的 Key 向量的点积，而得到的。如果我们计算句子中第一个位置单词的 Attention Score（注意力分数），那么第一个分数就是 q1 和 k1 的点积，第二个分数就是 q1 和 k2 的点积。
在这里插入图片描述

第 3 步就是把每个分数除以 $\sqrt(d_{key})$

最低0.47元/天解锁文章

Alex好好干饭

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
2.2 Transformer相关原理-图解transformer

目录1. 前言2.从整体宏观来理解Transformer3. 从细节理解Transformer3.1 Transformer 的输入3.2 Encoder(编码器)3.3 Self-Attention 整体理解3.4 Self-Attention 的细节计算Query 向量，Key 向量，Value 向量(Q K V)计算 Attention Score（注意力分数）使用矩阵计算 Self-Attention多头注意力机制（multi-head attention）4. 代码实现矩阵计算 Attention
复制链接

扫一扫