NLP--Transformer概览【笔记】

最新推荐文章于 2024-07-29 17:22:46 发布

故事挺秃然

最新推荐文章于 2024-07-29 17:22:46 发布

阅读量880

点赞数 21

分类专栏： Transformer NLP 深度学习文章标签：自然语言处理 transformer 笔记深度学习 python

本文链接：https://blog.csdn.net/liu_673/article/details/135522201

版权

NLP 同时被 3 个专栏收录

12 篇文章 0 订阅

订阅专栏

深度学习

9 篇文章 0 订阅

订阅专栏

Transformer

4 篇文章 0 订阅

订阅专栏

阅读本篇文章的时候，可以先去看看我写的前两篇笔记，能够相辅相成，更加深入了解Transformer。

第一篇宏观探索，其实是从词嵌入开始说起，从ELMO、BERT、GPT等入手让你明白，哪些用了Transformer的那些部分，以及演变过程
- NLP–Transformer探索（宏观）【笔记】
第二篇是从Transformer的细节处讲，有图有真相，明白里面的构造是什么，如果初学，容易绕进去，形成障碍。可以先阅读本文，再折回去阅读微观探索。（不过这个阅读顺序，无所谓，核心是掌握Transformer）
- NLP–Transformer探索（微观）【笔记】

编码器

首先，我们将每个词转化为其对应的词嵌入向量。嵌入只是词的特征向量，这个特征向量也是需要通过训练获得的。
矩阵 $\mathbf{X}$ 的维度为 $[句子的长度 \times 词嵌入向量维度]$
创建三个权重矩阵 $\mathbf{W}^{\mathbf{Q}}、\mathbf{W}^{\mathbf{K}}、\mathbf{W}^{\mathbf{V}}$ ，用矩阵 $\mathbf{X}$ 分别乘以矩阵 $\mathbf{W}^{\mathbf{Q}}、\mathbf{W}^{\mathbf{K}}、\mathbf{W}^{\mathbf{V}}$ ，就可以依次创建出查询矩阵 $\mathbf{Q}$ 、键矩阵 $\mathbf{K}$ 和值矩阵 $\mathbf{V}$

自注意力机制

自注意力机制首先要计算查询矩阵 $Q$ 与键矩阵 $K^T$ 的点积
- 看 $Q·K^T$ 矩阵的第一行，一行计算的是查询向量 $q_1(I)$ 与所有的键向量 $k_1(I)、k_2(am)、k_3(good)$ 的点积。通过计算两个向量的点积可以知道它们之间的相似度。（单词与句子中的所有单词的相似度）
将 $Q·K^T$ 矩阵除以键向量维度的平方根，这样是为了获得稳定的梯度
目前所得的相似度分数尚未被归一化，我们需要使用softmax函数对其进行归一化处理（分数矩阵）
- 应用softmax函数将使数值分布在0到1的范围内，且每一行的所有数之和等于1。
计算注意力矩阵 $Z$ 。
- 注意力矩阵包含句子中每个单词的注意力值。它可以通过将分数矩阵softmax ( $Q·K^T\over\sqrt{d_k}$ )乘以值矩阵 $V$ 得出
- 注意力矩阵 $Z$ 就是值向量与分数加权之后求和所得到的结果
- 通过自注意力机制，我们可以了解一个词与句子中所有词的相关程度。

多头注意力层

如果某个词实际上由其他词的值向量控制，而这个词的含义又是模糊的，那么这种控制关系是有用的；否则，这种控制关系反而会造成误解。为了确保结果准确，我们不能依赖单一的注意力矩阵，而应该计算多个注意力矩阵，并将其结果串联起来。使用多头注意力的逻辑是这样的：使用多个注意力矩阵，而非单一的注意力矩阵，可以提高注意力矩阵的准确性。

假设我们有8个注意力矩阵，即 $Z_1$ 到 $Z_8$ ，那么可以直接将所有的注意力头（注意力矩阵）串联起来，并将结果乘以一个新的权重矩阵 $W_0$ ，从而得出最终的注意力矩阵，
$Multi-head attention=Concatenate(Z_1,Z_2,...,Z_8)W_0$

位置编码

Transformer将句子中的所有词并行地输入到神经网络中。并行输入有助于缩短训练时间，同时有利于学习长期依赖。

位置编码是指词在句子中的位置（词序）的编码。

正弦函数来计算位置编码：
$P(pos,2_i)=\sin({pos\over{10000^{2_i/d_{model}}}})\\ P(pos,2_i+1)=\cos({pos\over{10000^{2_i/d_{model}}}})$

只需将输入矩阵 $X$ 与计算得到的位置编码矩阵 $P$ 进行逐元素相加，并将得出的结果作为输入矩阵送入编码器中。

前馈网路层

前馈网络由两个有ReLU激活函数的全连接层组成。前馈网络的参数在句子的不同位置上是相同的，但在不同的编码器模块上是不同的。

叠加和归一组件

同时连接多头注意力层的输入和输出
同时连接多头注意力层的输入和输出

叠加和归一组件实际上包含一个残差连接与层的归一化。
层的归一化可以防止每层的值剧烈变化，从而提高了模型的训练速度。

编码器总览

在这里插入图片描述

将 $N$ 个编码器一个接一个地叠加起来。从最后一个编码器（顶层的编码器）得到的输出将是给定输入句子的特征值。让我们把从最后一个编码器得到的特征值表示为 $R$ 。

$R$ 作为输入传给解码器。解码器将基于这个输入生成目标句。

解码器

一个解码器（第一个除外）将有两个输入：一个是来自前一个解码器的输出，另一个是编码器输出的特征值。

在每一步中，解码器都将上一步新生成的单词与输入的词结合起来，并预测下一个单词

在编码器部分，我们将输入转换为嵌入矩阵，并将位置编码添加到其中，然后将其作为输入送入编码器。同理，我们也不是将输入直接送入解码器，而是将其转换为嵌入矩阵，为其添加位置编码，然后再送入解码器。
假设在时间步 $t = 2$ ，我们将输入转换为嵌入（我们称之为嵌入值输出，因为这里计算的是解码器在以前的步骤中生成的词的嵌入），将位置编码加入其中，然后将其送入解码器。

带掩码的多头注意力层

在训练期间，由于有正确的目标句，解码器可以直接将整个目标句稍作修改作为输入。解码器将输入的作为第一个标记，并在每一步将下一个预测词与输入结合起来，以预测目标句，直到遇到标记为止。因此，我们只需将标记添加到目标句的开头，再将整体作为输入发送给解码器。
掩码有助于自注意力机制只注意模型在测试期间可以使用的词