Transformer解释

Mark_Aussie

已于 2023-11-21 12:57:53 修改

阅读量1k

点赞数

分类专栏： nlp 文章标签：自然语言处理

于 2021-09-06 10:58:00 首次发布

本文链接：https://blog.csdn.net/MarkAustralia/article/details/120128951

版权

nlp 专栏收录该内容

60 篇文章 3 订阅

订阅专栏

和seq2seq模型一样，transformer也是encoder和decoder组成。

Transformer 的时间复杂度为 O(LN^2H)，L为模型层数，H是注意力个数，N表示输入序列长度。

Attention 的时间复杂度主要受相似度计算及加权和的计算决定，n * d d/h * n -> O(nd)，n：输入序列长度，d：向量维度，h：注意力个数。

Encoder由N=6个相同的layer组成，layer指的就是上图左侧的单元，最左边有个“Nx”，此处x6个。每个Layer由两个sub-layer组成，分别是multi-head self-attention mechanism和fully connected feed-forward network。其中每个sub-layer都加了residual connection和normalisation，因此可以将sub-layer的输出表示为：

Attention的形式：

多头attention：通过h个不同的线性变换对Q，K，V进行投影，最后将不同的attention结果拼接。

多头Attention可对不同部分进行注意，获得更多的表示能力，类似CNN网络中多个滤波器的效果。

Transformer 中使用 Layer Normalization(LN) 而不是 Batch Normalization(BN)，因为Transformer是多头并行，而BN是基于Mini-Batch的，需要等待这个mini-batch数据输入完成才能继续训练，对处理不同长度文本时，计算均值和方差可能会出现偏差，在测试集上效果不好，特别是测试集样本长度分布不同于训练集。

LN不依赖外部数据，只依赖于当前层的输出，更好的适应不同长度输入数据，不受其他头影响。

Position-wise feed-forward networks：提供非线性变换。Attention输出的维度是[bsz * seq_len, num_heads * head_size]，第二个sub-layer是个全连接层，position-wise因为过线性层时每个位置 i 的变换参数是一样的。

Decoder和Encoder的结构相似，多了一个attention的sub-layer，decoder的输入输出和解码过程：

输出：对应 i 位置的输出词的概率分布
输入：encoder 的输出及对应 i - 1 位置decoder的输出。中间的attention不是self-attention，其K，V来自encoder，Q来自上一位置decoder的输出。
解码：训练和预测是不一样的。在训练时，解码是一次全部decode出来，用上一步的ground truth来预测(mask矩阵也会改动，让解码时看不到未来的token)；而预测时需要一个个预测。

新加的attention多加了一个mask，因训练时的output都是ground truth，可确保预测第i个位置时不会接触到未来的信息；加了mask的attention原理如图（另附multi-head attention）：

两种Positional Encoding的方法：

用不同频率的sine和cosine函数直接计算
学习出一份positional embedding

实验发现两者的结果一样，所以最后选择了第一种方法，公式如下：

上述位置计算的优势：

如果是学习到的positional embedding，会像词向量一样受限于词典大小；也就是只能学习到 “位置2对应的向量是(1,1,1,2)” 这样的表示。而用三角公式明显不受序列长度的限制，也就是可以对比所遇到序列的更长的序列进行表示。

Transformer的缺点：

实践上：有些rnn轻易可以解决的问题transformer没做到，比如复制string，或者推理时碰到的sequence长度比训练时更长（因为碰到了没见过的position embedding）
理论上：transformers非computationally universal（图灵完备）
transformer很难处理长序列，当增加模型一次输入的最大序列长度(上下文窗口)时，由于attention 是通过将序列中每个单词与该序列中每个其他单词比较，随着长度的增加，计算步骤成指数增长，如序列长度从32变为64，计算成本增加四倍。
transformer缺乏可解释性，由于大模型的参数极其巨大，其输出的结果无法解释原因。

Transformer是第一个用纯attention搭建的模型，不仅计算速度更快，在翻译任务上获得了更好的结果，也为后续的BERT模型做了铺垫。

参考：

【NLP】Transformer模型原理详解 - 知乎 (zhihu.com)

The Annotated Transformer

你想要的Transformer这里都有 - 知乎