NLP学习笔记——Transformer模型

最新推荐文章于 2024-07-25 13:39:51 发布

孤酒以之

最新推荐文章于 2024-07-25 13:39:51 发布

阅读量1.6k

点赞数 1

分类专栏： NLP学习笔记文章标签：机器学习人工智能神经网络自然语言处理 nlp

本文链接：https://blog.csdn.net/oqzuser14896585/article/details/109327525

版权

Transformer模型是Google在2017年提出的，抛弃了传统的RNN、CNN，仅使用Attention机制，提高了NLP任务的计算效率。模型特点包括依赖Attention机制解决长期依赖问题，具备并行计算能力。主要由Encoder-Decoder构成，Encoder通过Multi-Head Attention实现信息并行处理，Decoder则需串行计算，确保不提前看到未来信息。Transformer广泛应用于机器翻译、文本摘要等，是Bert等先进模型的基础。

摘要由CSDN通过智能技术生成

NLP学习笔记——Transformer模型

1.概述

《Attention Is All You Need》是Google在2017年提出的一篇将Attention思想发挥到极致的论文。该论文提出的Transformer模型，基于encoder-decoder架构，抛弃了传统的RNN、CNN模型，仅由Attention机制实现，并且由于encoder端是并行计算的，训练时间大大缩短。

Transformer模型广泛应用于NLP领域，机器翻译、文本摘要、问答系统等等，目前火热的Bert模型就是基于Transformer模型构建的。

2.模型特点

传统seq2seq最大的问题在于将Encoder端的所有信息压缩到一个固定长度的向量中，并将其作为Decoder端首个隐藏状态的输入，来预测Decoder端第一个单词(token)的隐藏状态。在输入序列比较长的时候，这样做显然会损失Encoder端的很多信息，而且这样一股脑的把该固定向量送入Decoder端，Decoder端不能够关注到其想要关注的信息。并且模型计算不可并行，计算隐层状态 $h_t$ 依赖于 $h_{t-1}$ 以及状态 $t$ 时刻的输入，因此需要耗费大量时间。

Transformer优点：transformer架构完全依赖于Attention机制，解决了输入输出的长期依赖问题，并且拥有并行计算的能力，大大减少了计算资源的消耗。self-attention模块，让源序列和目标序列首先“自关联”起来，这样的话，源序列和目标序列自身的embedding表示所蕴含的信息更加丰富，而且后续的FFN层也增强了模型的表达能力。Muti-Head Attention模块使得Encoder端拥有并行计算的能力

3.模型原理

3.1 总体结构

transformer采用encoder-decoder架构，如下图所示。Encoder层和Decoder层分别由6个相同的encoder和decoder堆叠而成，模型架构更加复杂。其中，Encoder层引入了Muti-Head机制，可以并行计算，Decoder层仍旧需要串行计算

在这里插入图片描述

Encoder层和Decoder层内部结构如下图所示。

Encoder具有两层结构，self-attention和前馈神经网络。self-attention计算句子中的每个词都和其他词的关联，从而帮助模型更好地理解上下文语义，引入Muti-Head attention后，每个头关注句子的不同位置，增强了Attention机制关注句子内部单词之间作用的表达能力。前馈神经网络为encoder引入非线性变换，增强了模型的拟合能力。
Decoder接受output输入的同时接受encoder的输入，帮助当前节点获取到需要重点关注的内容

在这里插入图片描述

3.2 Multi-Head Attention

Multi-Head Attention 计算过程如下图，在讲解Multi-Head Attention之前，我们需要了解self-attention。

在这里插入图片描述

self-attention 机制用于计算句子中当前词与其他词的联系，举个例子：

The animal didn’t cross the street because it was too tired

The animal didn’t cross the street because it was too wide

两句话中的单词 it 指代不同，第一句话 it 指代 animal 而第二句指代 street。对于我们来说能很简单的判断出来，但是对于机器来说，是很难判断的，尤其是相对于传统seq2seq模型。两句话在单词 it 之前的内容是一样的，传统seq2seq模型encoder的顺序输入导致模型无法区分这种差别。而self-attention机制通过计算单词it与其他词之间的联系得知it的具体指代，最终结果如下图所示。

在这里插入图片描述

那么具体的计算过程是怎样的呢，我们先上公式，然后一步步拆解：

$softmax(\frac{QK^T}{\sqrt{d_k}})V$

其实attention可以有很多种计算方式，加性attention，点积attention等等，论文中采用的是点积attention。公式如上

对于这个公式，我们首先进行一个大致的理解：Q,K,V是三个矩阵，分别是Query Key Value的缩写，Query与Key作用得到attention的权值，之后这个权值作用在Value上得到attention值。

在这里插入图片描述

举一个具体的例子：

$X$ 是我们的输入句子Embedding后的结果， $X_1$ 、 $X_2$ 是其前两个单词。算法的第一步需要计算 $q$ $ k$ $v$ 向量。这三个向量是 $X$ 分别于其权重矩阵 $W^Q$ 、 $W^K$ 、 $W^V$ 相乘得到，如下图所示

在这里插入图片描述

计算self-attention的分数值，该分数值决定了当我们在某个位置encode一个词时，对输入句子的其他部分的关注程度。这个分数值的计算方法是Query与Key做点乘，以下图为例，首先我们需要针对Thinking这个词，计算出其他词对于该词的一个分数值，首先是针对于自己本身即q1·k1，然后是针对于第二个词即q1·k2。
接下来，把点成的结果除以一个常数，这里我们除以8，这个值一般是采用上文提到的矩阵的第一个维度的开方即64的开方8，当然也可以选择其他的值，然后把得到的结果做一个softmax的计算。得到的结果即是每个词对于当前位置的词的相关性大小，当然，当前位置的词相关性肯定会会很大。
下一步就是把Value和softmax得到的值进行相乘，并相加，得到的结果即是self-attetion在当前节点的值。