程序员学长 | 快速学会一个算法，Transformer（上）

双木的木

于 2024-06-23 17:14:48 发布

阅读量839

点赞数 16

分类专栏： Transformer专栏深度学习拓展阅读文章标签： transformer 深度学习人工智能 python 信息可视化计算机视觉算法

本文链接：https://blog.csdn.net/csdn_xmj/article/details/139886390

版权

深度学习拓展阅读同时被 2 个专栏收录

200 篇文章 15 订阅

订阅专栏

Transformer专栏

29 篇文章 1 订阅

订阅专栏

本文来源公众号“程序员学长”，仅用于学术分享，侵权删，干货满满。

原文链接：快速学会一个算法，Transformer

今天给大家分享一个超强的算法模型，Transformer。我们会分两篇文章进行讲解。

Transformer 模型是深度学习中一种「基于注意力机制」的模型，广泛应用于自然语言处理（NLP）任务，如机器翻译、文本生成和问答系统。

它由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出，突破了传统序列模型（如RNN和LSTM）的限制，特别是在长距离依赖问题上表现出色。它是 ChatGPT 和所有其他 LLM 的支柱。

论文链接：https://arxiv.org/pdf/1706.03762

1 模型架构

Transformer 模型由编码器（Encoder）和解码器（Decoder）组成。编码器和解码器各由 N 层相同的子层堆叠而成。

以下是编码器和解码器的详细结构。

1.1 编码器（Encoder）

每层编码器包含两个子层：

多头自注意力机制（Multi-Head Self-Attention）
前馈神经网络（Feed-Forward Neural Network）

1.2 解码器（Decoder）

每层解码器包含三个子层：

多头自注意力机制（Multi-Head Self-Attention）
编码器-解码器注意力机制（Encoder-Decoder Attention）
前馈神经网络（Feed-Forward Neural Network）

2 Transformer 核心组件

下面，让我们来看看 Transformer 如何将输入文本序列转换为向量表示，又如何逐层处理这些向量表示得到最终的输出。

2.1 输入编码

和常见的 NLP 任务一样，我们首先会使用词嵌入算法（word embedding），将输入文本序列的每个词转换为一个词向量。实际应用中的向量一般是 256 或者 512 维。但为了简化起见，我们这里使用 4 维的词向量来进行讲解。

如下图所示，假设我们的输入文本是序列包含了 3 个词，那么每个词可以通过词嵌入算法得到一个 4 维向量，于是整个输入被转化成为一个向量序列。

2.2 位置编码

由于 Transformer 模型依赖于自注意力机制，而自注意力机制本质上是无序的，即它不区分输入序列中各个词的位置顺序，因此需要显式地引入位置信息来帮助模型理解序列的顺序关系。

位置编码的具体实现方式有多种，Transformer 模型中采用了一种基于正弦和余弦函数的方式。

2.3 编码器 encoder

输入文本序列经过输入处理之后得到了一个向量序列，这个向量序列将被送入第1层编码器，第1层编码器输出的同样是一个向量序列，再接着送入下一层编码器：第1层编码器的输入是融合位置向量的词向量，更上层编码器的输入则是上一层编码器的输出。

下图展示了向量序列在单层 encoder 中的流动，融合位置信息的词向量进入self-attention 层，self-attention 输出每个位置的向量再输入 FFN 神经网络得到每个位置的新向量。

2.4 Self-Attention

注意力机制是神经网络中一个非常吸引人的概念，尤其是在 NLP 等任务中。它就像给模型打了一盏聚光灯，让它专注于输入序列的某些部分，而忽略其他部分，就像我们人类在理解句子时会注意特定的单词或短语一样。

现在，让我们深入研究一种特殊的注意力机制，称为 Self-Attention (自注意力)。想象一下，你正在阅读一个句子，你的大脑会自动突出显示重要的单词或短语以理解其含义。这本质上就是自注意力在神经网络中的作用。「它使序列中的每个单词能够 “注意” 其他单词（包括它自己），以更好地理解上下文。」

Self-Attention 的工作原理

下面，我们通过一个具体的案例进行说明。假设，我们需要对词组 Thinking Machines 进行翻译，其中 Thinking 对应的 embedding 向量用 x1 表示，Machines 对应的 embedding 向量用 x2 表示。

当我们处理 Thinking 这个词时，我们需要计算句子中所有词与它的 Attention Score。首先将当前词作为搜索的 query，去和句子中所有词（包含该词本身）的 key 去匹配，看看相关度有多高。我们用 q1代表 Thinking 对应的 query 向量，k1 及 k2 分别代表 Thinking 以及Machines 对映的 key 向量，则计算 Thinking 的 attention score 的时候我们需要计算 q1 与 k1、k2 的点乘，同理，我们计算 Machines的 attention score 的时候需要计算 q2 与 k1、k2 的点乘。

如下图中所示我们分别得到了q1与 k1、k2 的点乘积，然后我们进行尺度缩放与softmax归一化。

显然，当前单词与自身的注意力得分一般最大，其他单词根据当前单词重要程度有相应的分数。随后我们用这些注意力得分与 Value 向量相乘，得到加权的向量。

上图中 z1 表示对第一个位置词向量（Thinking）计算 Self Attention 的全过程。最终得到的当前位置（这里的例子是第一个位置）词向量会继续输入到前馈神经网络。

在实际的代码实现中，Self Attention 的计算过程是使用矩阵快速计算的，一次就得到所有位置的输出向量。

2.5 残差连接和层标准化

经过 Multi-head Attention 后会进入 Add & Norm 层，这一层是指残差连接和层标准化。

下面，我们来看一下什么是层标准化，和批量标准化有什么区别。

批量标准化是对一个批次中的所有样本进行标准化处理，它是对一个批次中的所有样本的每一个特征进行归一化。而层标准化是对每个样本的所有特征进行标准化处理，独立于同一批次中的其他样本。

层标准化的优点是不受批量大小的影响，可以在小批量甚至单个样本上工作。更适合序列数据。

2.6 前馈网络（FFN）

接着进入到 FFN 层，由下列公式可以看到输入x 先做线性运算后，然后送入 ReLU，之后再做一次线性运算。

在 FFN 后面，也会接一个 Add & Norm 层，这里就不再赘述。

到目前位置，我们已经把 Transformer 中的 Encoder 部分聊完了。对于 Decoder 部分，我们下一篇文章再见。

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。

双木的木

关注

16
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
程序员学长 | 快速学会一个算法，Transformer（上）

今天给大家分享一个超强的算法模型，Transformer。我们会分两篇文章进行讲解。Transformer 模型是深度学习中一种「基于注意力机制」的模型，广泛应用于自然语言处理（NLP）任务，如机器翻译、文本生成和问答系统。它由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出，突破了传统序列模型（如RNN和LSTM）的限制，特别是在长距离依赖问题上表现出色。它是 ChatGPT 和所有其他 LLM 的支柱。
复制链接

扫一扫