论文笔记--XLNet: Generalized Autoregressive Pretraining for Language Understanding

最新推荐文章于 2024-10-04 20:04:05 发布

Isawany

最新推荐文章于 2024-10-04 20:04:05 发布

阅读量245

点赞数

分类专栏：论文阅读文章标签：论文阅读 xlnet bert 语言模型 transformer

本文链接：https://blog.csdn.net/weixin_38124427/article/details/130790094

版权

论文阅读专栏收录该内容

80 篇文章 3 订阅

订阅专栏

XLNet通过排列语言模型解决了BERT和GPT的局限，结合自编码和自回归模型的优点，捕捉到双向上下文依赖。文章提出了双流自注意力机制，用于在不依赖目标词的情况下编码上下文，并部分预测来减少计算量。XLNet在多项任务上超越了BERT。

摘要由CSDN通过智能技术生成

论文笔记--XLNet: Generalized Autoregressive Pretraining for Language Understanding

1. 文章简介
2. 文章导读
3. 文章亮点
4. 原文传送门
5. References

1. 文章简介

标题：XLNet: Generalized Autoregressive Pretraining for Language Understanding
作者：Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le
日期：2019
期刊：NeurIPS

2. 文章导读

2.1 概括

BERT[1]和GPT[2]模型均有着各自的优势和劣势：BERT属于自编码(AE)类模型，采用MLM和NSP进行预训练，得到的模型适用于处理上下文依赖的下游任务，如文本相似度分析等，但1) MLM未考虑到多个[MASK]之间的依赖性，从而模型可能会有偏差 2) 下游任务中无[MASK]，从而造成预训练和微调任务的差异性；GPT属于自回归/生成式(AR)模型，即依赖上文生成当前token，生成式模型可以避免BERT的上述问题，但模型是单向的，无法考虑到上下文依赖。
为了解决上述问题，本文提出了XLNET(transformer-XL NETwork)，可以将AR和AE类任务的优点结合，在自然语言理解、文本分类、文档排序等任务上均超过了BERT的表现。
文章整体架构如下

2.2 文章重点技术

2.2.1 排列语言模型 Permutation Language Modeling

为了充分结合AR和AE的优点，文章提出了Permutation Language Modeling(PLM)目标，从而令生成式模型可以捕捉到双向上下文依赖。具体来说，给定长度为 $T$ 的序列 $x=(x_1, \dots, x_T)$ ，令 $Z_T = {1到T的所有排列组合}$ 表示序列 $x$ 的可能的下标顺序，则对任意 $\vec{z} =(z_1, \dots, z_T)\in Z_T$ ，令 $\vec{Z}_{<t} =(z_t, \dots, z_{t-1})$ 表示 $t$ 时刻前的下标序列。文章提出的PLM目标为 $\max_{\theta} \mathbb{E}_{\vec{z}\in Z_T} \left[\sum_{t=1}^T \log p_{\theta} (x_{z_t}|x_{\vec{z}_{<t}})\right]$ ，即考虑所有不同的下标顺序的期望最大值，每个顺序下对应的目标函数即GPT的生成式目标函数：给定 $t$ 时刻之前的下标，令当前 $t$ 时刻的输出概率最大化。
特别注意，这里的目标函数仅随机打乱了下标的顺序，而非序列的位置。在处理时，我们对每个原始序列的元素进行位置编码，无论该元素在哪个下标组合下，其位置编码仍是原始的位置编码。在微调阶段，我们只需保持原始的顺序即可。
例如，当原始句子为 $y = (I, l o v e, pl a y in g, t h e, p ian o)$ 时， $Z_T={1,2,3,4,5的所有排列}$ ，对 $\vec{z}=(1,3,2,5,4)\in Z_T$ ，我们有

$t = 1$ 时，最大化 $p_{\theta}(x_{z_1}=y_{z_1}) = p_{\theta}(x_1=\text{'I'})$
$t = 2$ 时，最大化 $p_{\theta}(x_{z_2}=y_{z_2}) = p_{\theta}(x_3=\text{'playing'}|x_1=\text{'I'})$
$t = 3$ 时，最大化 $p_{\theta}(x_{z_3}=y_{z_3}) = p_{\theta}(x_2=\text{'love'}|x_1=\text{'I'},x_3=\text{'playing'})$
$t = 4$ 时，最大化 $p_{\theta}(x_{z_4}=y_{z_4}) = p_{\theta}(x_5=\text{'piano'}|x_1=\text{'I'},x_3=\text{'playing'},x_2=\text{'love'})$
$t = 5$ 时，最大化 $p_{\theta}(x_{z_5}=y_{z_5}) = p_{\theta}(x_4=\text{'the'}|x_1=\text{'I'},x_3=\text{'playing'},x_2=\text{'love'},x_5=\text{'piano'})$
可以看到，上述过程中在预测 $x_2$ 的时候用到了其上下文信息。
但上述的目前函数使用标准SoftMax之后为 $p_\theta(X_{z_t}=x|x_{\vec{z}_{<t}})=\frac{\exp(e(x)^Th_\theta(x_{\vec{z}_{<t}}))}{\sum_{x'}\exp(e(x')^Th_\theta(x'_{\vec{z}_{<t}}))}$ ，其中 $e (x)$ 表示 $x$ 的词嵌入， $h_\theta(x)$ 表示 $x$ 经过Transformer的隐藏层输出。但注意到上式的 $h_\theta(x_{\vec{z}_{<t}})$ 与其预测的位置无关，即对任意的 $\vec{z}$ ，只要当前时刻前的 $\vec{z}_{<t}$ 相同，当前位置为任意下标预测每个token得到的概率均相同。为此，文章提出将target position也放入到目标函数中，即重写目标函数中的条件概率为 $p_\theta(X_{z_t}=x|x_{\vec{z}_{<t}})=\frac{\exp(e(x)^Tg_\theta(x_{\vec{z}_{<t}}, z_t))}{\sum_{x'}\exp(e(x')^Tg_\theta(x'_{\vec{z}_{<t}}, z_t))}$ ，其中 $g_\theta(x,z_t)$ 为以 $x,z_t$ 为自变量的函数。

2.2.2 双流自注意力机制Two-Stream Self-Attention

为了给出上述 $g_\theta$ 的合适表达，我们需要考虑其满足的特性：1）要预测当前的 $x_{z_t}$ ， $g_\theta$ 不能依赖 $x_{z_t}$ ，而只能依赖 $x_{\vec{z}_{<t}}$ 和位置 $z_t$ ，否则问题会变成平凡的问题 2）为了预测 $t$ 时刻之后的状态， $g_\theta$ 要依赖当前的 $x_{z_t}$ 。这样则产生了矛盾。为了解决上述矛盾，文章提出采用两种隐藏层

内容表征(content representation, CR) $h_\theta(x_{\vec{z}_{<t}}):=h_{z_t}$ ，和Transformer中隐藏层一致，为了编码上下文和 $x_{z_t}$ 。CR初始化为 $h_i^{(0)} = e(x_i)$ 即每个单词的嵌入，对 $j > 0$ ，将上一层的 $h_i^{(j-1)}$ 作为注意力机制的输入得到新的 $h_i^{(j)}$ ；
请求表征(query representation, QR) $g_\theta(x_{\vec{z}<t}, z_t):=g_{z_t}$ ，无 $x_{z_t}$ 的信息，仅获取到当前时刻的上文内容（下标意义的）和当前时刻的位置。 $g_i^{(0)}$ 初始化为 $\omega$ ，一个可学习的向量，对 $j > 0$ ，将上一层的 $g_i^{(j-1)}$ 作为注意力机制的输入得到新的 $g_i^{(j)}$ ；
整体的训练方法参照文初的架构图。