Transformer-XL详解

Xu_Wave

已于 2022-04-18 00:19:20 修改

阅读量7.2k

点赞数 11

分类专栏： NLP(包含深度学习) 文章标签：自然语言处理

于 2020-05-25 00:08:36 首次发布

本文链接：https://blog.csdn.net/qq_22795223/article/details/106130388

版权

NLP(包含深度学习) 专栏收录该内容

55 篇文章

订阅专栏

1. 介绍

为了帮助理解XLNet，本文对其核心框架Transformer-XL作一个解读。本文发表在ACL2019上，论文想要解决的问题：如何赋予编码器捕获长距离依赖的能力。

目前在自然语言处理领域，Transformer的编码能力超越了RNN，但是对长距离依赖的建模能力仍然不足。在基于LSTM的模型中，为了建模长距离依赖，提出了门控机制和梯度裁剪，目前可以编码的最长距离在200左右。在基于Transformer的模型中，允许词之间直接建立联系【self-attention】，能够更好地捕获长期依赖关系，但是还是有限制。

2. Vanilla Transformer

Vanilla Transformer是Transformer和Transformer-XL中间过度的一个算法，所以在介绍Transformer-XL之前我们先来了解下Vanilla Transformer，注意，其使用了Transformer中的Decoder结构，所以下图是单向的。

Vanilla Transformer的原理图：
在这里插入图片描述
Vanilla Transformer论文中模型有64层，并仅限于处理 512个字符这种相对较短的输入，因此训练的时候它将输入分成段，并分别从每个段中进行学习，如上图所示。

在测试阶段如需处理较长的输入，该模型会在每一步中将输入向右移动一个字符，以此实现对下一个字符的预测。

Vanilla Transformer的三个缺点：

长度受限：字符之间的最大依赖距离受输入长度的限制，模型看不到出现在几个句子之前的单词。
上下段间的语义未考虑：段与段之间没有上下文依赖性，会让训练效率低下，也会影响模型的性能
推理速度慢：在测试阶段，每次预测下一个单词，都需要重新构建一遍上下文，并从头开始计算，这样的计算速度非常慢

3. Transformer-XL

Transformer-XL架构在vanilla Transformer的基础上引入了两点创新：

循环机制（Recurrence Mechanism）
相对位置编码（Relative Positional Encoding）。

以克服Vanilla Transformer的缺点。
与Vanilla Transformer相比，
Transformer-XL的另一个优势是
它可以被用于单词级和字符级的语言建模。

3.1 循环机制（Recurrence Mechanism）

Transformer-XL仍然是使用分段的方式进行建模，但其与Vanilla Transformer的本质不同是在于引入了段与段之间的循环机制，使得当前段在建模的时候能够利用之前段的信息来实现长期依赖性。如下图所示：
在这里插入图片描述
在训练阶段，处理后面的段时，每个隐藏层都会接收两类输入：

该段的前面节点的输出，与Vanilla Transformer相同（上图的灰色线）。
前面段的节点的输出（上图的绿色线），可以使模型创建长期依赖关系。这部分输出是通过cache的机制传导过来，所以不会参与梯度的计算。原则上只要GPU内存允许，该方法可以利用前面更多段的信息。

在预测阶段：
如果预测 $x_{11}$ 我们只要拿之前预测好的 $x_1,x_2...x_{10}]$ 的结果拿过来，直接预测。同理在预测 $x_{12}$ 的时候，直接在 $x_1,x_2...x_{10},x_{11}]$ 的基础上计算，不用像Vanilla Transformer一样每次预测一个字就要重新计算前面固定个数的词。

3.2 相对位置编码

为了更加直观的解释这个部分，我会由浅入深娓娓道来。
首先我们之前所理解的Attention机制，可以点击这里，看其中的Attention部分的计算过程。

但是需要注意的是，上述文章中的计算过程，是从代码角度，也就是从整个矩阵角度去进行理解计算的，那么对于单个词的计算过程，我们在此进行更详细的阐述。首先见下图：(注意力放在阶段1)
在这里插入图片描述
第一层的计算查询 $q_i^T$ 和键 $k_j$ 之间的Attention分数的方式为：

展开可得：

在Transformer中，一个重要的地方在于其考虑了序列的位置信息。
在分段的情况下，如果仅仅对于每个段仍直接使用Transformer中的位置编码，即每个不同段在同一个位置上的表示使用相同的位置编码，就会出现问题。
比如，第 $i - 2$ 段和第 $i - 1$ 段的第一个位置将具有相同的位置编码，但它们对于第 $i$ 段的建模重要性显然并不同（例如第 $i - 2$ 段中的第一个位置重要性可能要低一些）。因此，需要对这种位置进行区分。