XLNet: Generalized Autoregressive Pretraining for Language Understanding

最新推荐文章于 2023-12-10 16:37:55 发布

ZJWANGER

最新推荐文章于 2023-12-10 16:37:55 发布

阅读量280

点赞数

分类专栏： NLP Paper 文章标签： XLNet

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JWoswin/article/details/97132632

版权

NLP 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

1. 创新点

XLNet主要解决了Bert存在的一些问题，所以在介绍XLNet前，先简单介绍一下Bert，及其问题。

1.1 BERT

凭借对双向上下文进行建模的能力，Bert在自然语言处理任务上表现优异。
Bert有两个训练任务。

训练任务1

一句话中取15%的词用 $[M A S K]$ 替换, 然后预测 $[M A S K]$ 替换的词原来是什么词。

预测 $[M A S K]$ 替换的词原来是什么词时，把 $[M A K S]$ 位置对应的最终输出输入到一个softmax层（softmax层为词汇表大小）。

虽然这允许我们获得双向预训练模型，但缺点是我们在预训练和微调之间产生不匹配，因为[MASK]在微调期间不会出现。为了缓解这种情况，我们并不总是用实际的[MASK]替换随机选择的字。

训练数据生成器随机选择15％的词进行预测。如果选择了第i个词，我们用

80%的可能用[MASK]替换选中的第i个词
10%的可能随机选一个词来替换选中的第i个词
10%的可能选中的第i个词保留原来的词

训练任务2

略

Bert存在的问题

随机mask一句话中15%的单词，忽略了被mask的单词之间的依赖性
XLNet的作者认为，训练任务1的训练方法使预训练阶段和微调阶段存在差异，虽然通过一些方法缓解这种了情况，但未完全解决。

既然存在这些问题，让我们看看XLNet是怎么解决的。

1.2 XLNet创新点

XLNet，一种广义自回归预训练方法。

通过最大化因子分解顺序的所有排列的预期可能性来学习双向上下文。
由于其自回归公式，克服了BERT的局限性。
XLNet将最先进的自回归模型Transformer-XL的创意整合到预训练中。

XLNet在20个任务上的表现优于BERT，通常大幅度提升，并在18个任务中实现最先进的结果，包括问答，自然语言推理，情感分析和文档排名。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
XLNet: Generalized Autoregressive Pretraining for Language Understanding

1. 创新点XLNet主要解决了Bert存在的一些问题，所以在介绍XLNet前，先简单介绍一下Bert，及其问题。1.1 BERT凭借对双向上下文进行建模的能力，Bert在自然语言处理任务上表现优异。Bert有两个训练任务。训练任务1一句话中取15%的词用[MASK][MASK][MASK]替换, 然后预测[MASK][MASK][MASK]替换的词原来是什么词。预测[MASK][M...
复制链接

扫一扫

专栏目录

ZJWANGER CSDN认证博客专家 CSDN认证企业博客

码龄9年

29: 原创

42万+: 周排名

222万+: 总排名

5万+: 访问

: 等级

736: 积分

9: 粉丝

55: 获赞

12: 评论

184: 收藏

私信

关注

热门文章

分类专栏

大数据 4篇
自然语言处理 1篇
Linux 1篇
论文翻译 3篇
凸优化 5篇
人工智能 10篇
情感分析 2篇
csapp 3篇
计算机系统 5篇
数学理论 1篇
pytorch 2篇
NLP 4篇
博客 1篇
Paper 3篇

最新评论

本地运行mapred问题
Huayu_yang: 为什么会出现这个报错
遗传算法解决TSP问题(python)
爱吃萝卜的大白熊: 这个起点是啥？这里面截止是以迭代次数完为止，最终答案回到起点了吗
Mac 使用终端对U盘分区
kpbiao87: yes ,it work!
Torchtext使用教程
NopainNooffer: tortext加载预训练向量后构建的词向量矩阵传入mode.embedding.wight.data后，部分词在glove中没有对应的向量，导致模型进行self.embedding的时候索引超出界限了
Torchtext使用教程
doper: 这句data = pd.read_csv('train.tsv', sep='\t')改成：data1 = pd.read_csv('train.tsv', sep='\t')，不然会出错

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。