超简单的XLNet论文解读

最新推荐文章于 2023-12-10 16:37:55 发布

卡布达打小怪兽_Cheer

最新推荐文章于 2023-12-10 16:37:55 发布

阅读量588

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haoronge9921/article/details/103489121

版权

本文详细解读XLNet论文，探讨它如何结合AR和AE语言模型的优点，采用permutation language modeling获取双向上下文信息，并通过Two-Stream Self-Attention解决预测难题。XLNet的主要创新包括：permutation语言建模、两流自注意力机制以及从Transformer-XL引入的相对位置编码和递归循环机制。

摘要由CSDN通过智能技术生成

近期在做中文文本分类，看了好多解读XLNet论文的文章，都不是很清楚，因此我自己看了一遍原版文论，现记录如下：

1、XLNet：Generalized Autoregressive Pretraining for Language Understanding

这几天仔细研究了一下这篇论文，从比较之前的LM（语言模型）到XLNet的初衷，最后到其网络架构，包括上次所说的三点创新：（1）采用permutation language model为AR模型引入双向的文本的信息；（2）采用transformer-XL中相对位置编码和递归循环机制增加模型对长文本的处理能力；（3）受GPT-2的影响，使用更大的训练数据集，具体细节如下：

（1）AR和AE语言模型

首先，作者将之前的预训练语言模型模型分成了AR和AE两大类，AR即autoregressive，也就是论文题目中的自回归，AE即autoencoding，以BERT模型为代表的自编码语言模型。其中，AR语言模型旨在寻找一个最大条件概率，形如：

意思是在前t个字符出现的情况下出现xt的概率，容易发现，在语言生成类的任务中AR模型有天然的优势，但只使用上下文中单侧的信息来预测新的字符，这肯定会丢失很多信息，而很多下游的语言理解任务经常需要上下文两侧的信息。虽然也有

最低0.47元/天解锁文章

卡布达打小怪兽_Cheer

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
超简单的XLNet论文解读

近期在做中文文本分类，看了好多解读XLNet论文的文章，都不是很清楚，因此我自己看了一遍原版文论，现记录如下：1、XLNet：Generalized Autoregressive Pretraining for Language Understanding这几天仔细研究了一下这篇论文，从比较之前的LM（语言模型）到XLNet的初衷，最后到其网络架构，包括上次所说的三点创新：（1）采用permu...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。