XLNet

雪糕遇上夏天

于 2021-12-08 17:36:20 发布

阅读量261

点赞数

分类专栏： NLP 神经网络深度学习文章标签： xlnet 自然语言处理人工智能

本文链接：https://blog.csdn.net/weixin_40935425/article/details/121796831

版权

深度学习同时被 3 个专栏收录

13 篇文章 1 订阅

订阅专栏

神经网络

11 篇文章 1 订阅

订阅专栏

NLP

6 篇文章 0 订阅

订阅专栏

XLNet目录

0. XLNet简介
1. Permutation Language Modeling
2. Two-Stream Self-Attention
3. Transformer-XL

0. XLNet简介

2018年Bert横空出世，刷新了很多NLP任务的SOTA。之后人们开始研究对Bert的改进，本文介绍的XLNet就是比较成功的另一个模型。不同于Bert的AutoEncoder模式，XLNet用的是AutoRegressive模式。据说，XLNet在20个任务上比BERT做得更好，的确吸人眼球。
Bert类（AE）模型的的不足之处在于，在训练的时候引入了[MASK]，而在fine-tune阶段并不会出线[MASK]，导致了预训练与finetune不一致。[MASK]的另一个问题是假设MASK掉的token是相互独立的，然而并不是这样，譬如New York。
XLNet提供了一种新的方法，让AR语言模型从双向的上下文学习，避免了AE语言模型中MASK带来的弊端。

1. Permutation Language Modeling

AR语言模型只能使用前向的上下文或后向的上下文，那么如何使用双向的上下文呢，XLNet提出了一个新的目标，叫做重排序语言建模(Permutation Language Modeling)。
XLNet

理论上对于长度为T的序列X，存在T！中排列方式，但实际上由于计算复杂度的限制，不可能计算所有的序列排列，因此对于每个序列输入只采样一个排列方式。而且在实际训练时，不会打乱序列，而是通过mask矩阵实现permutation。作者特意强调，这样可以保持与finetune输入顺序的一致，不会存在pretrain-finetune差异。