XLNet:语言理解的生成自回归预训练模型一

最新推荐文章于 2023-06-15 16:36:58 发布

何弃疗8

最新推荐文章于 2023-06-15 16:36:58 发布

阅读量416

点赞数

分类专栏：神经网络算法模型文章标签： nlp 人工智能

本文链接：https://blog.csdn.net/qq_18205919/article/details/113245227

版权

神经网络算法模型专栏收录该内容

1 篇文章 0 订阅

订阅专栏

看了XLNET的语言模型的论文，基于自身的理解，编写了这篇文章，有写的不对的地方希望大家能够指出，在此希望能和大家一起学习。

传统意义上的自回归语言模型不具有构建双向上下文信息模型的能力，而类似于bert的自编码器的语言模型可以解决这个问题，但是他是依赖于【mask】掩码去实现双向构建模型，所以忽略了mask位置之间的依赖关系，并存在预训练语义微调的差异，为了同时获取自回归语言模型考虑上下文信息和bert模型双向构建的优点，开始构建了xlnet模型。

先介绍在上游环节中xlnet的无监督学习，在上游环节的无监督学习中，AR语言模型设置文本序列X=(x1,x2,x3...,xT),求前项序列的最大似然估计或者后项序列的最大似然估计 AR语言模型只能够进行单向的训练文本，不能有效地建模深度双向上下文，但是在下游任务中通常是需要获取上下文信息，这导致了AR语言建模和有效的预训练之间的差距。

而AE模型例如BERT，通过重建特殊的标记[Mask]，可以双向的预测掩码的数值，但由于预测的令牌在输入中是被屏蔽的，他独立于其他的文本内容，所以他不能像在AR语言建模中那样使用乘积规则来建模联合概率，而是通过非mask掩码的内容去预测mask掩码的内容，Bert在预训练中使用的Mask标记的数据在实际中是缺失的，导致训练前微调的差异。

而xlnet通过列表的形式，因式分解构建了所有可能的排序，在预期中，每个位置学习利用来自所有位置的上下文信息，即捕捉双向上下文。另外，xlnet不依赖于数据损坏（不需要mask掩码），因此，他不会存在训练前微调的差异，仍然使用了成绩规则来分解预测token的联合概率，消除了Bert中的独立假设。

xlnet继承了transformer-XL的段递推机制和相关编码方案，能够更好的去解决长文本序列的任务，将Transformer(-XL)体系结构应用于基于排列的语言建模是行不通的，因为分解顺序是任意的，目标是不明确的。作为一种解决方案，我们建议重新参数化Transformer(-XL)网络，以消除歧义。

以前的模型是无顺序的，而XLNet本质上是基于位置编码的顺序感知的。这对语言理解很重要，因为一个无序的模型会退化为一大堆单词，缺乏基本的表达能力。上述差异源于动机上的根本差异——以前的模型旨在通过在模型中加入“无序”的归纳偏差来改进密度估计，而XLNet的动机则是让增强现实语言模型学习双向上下文。

传统的AR语言模型使用过前向自回归因式分解去计算的：