简述 XLNet 的原理和应用

最新推荐文章于 2021-03-03 20:57:01 发布

Alice熹爱学习

最新推荐文章于 2021-03-03 20:57:01 发布

阅读量497

点赞数

分类专栏：自然语言处理面试基础

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/108728559

版权

自然语言处理面试基础专栏收录该内容

34 篇文章 34 订阅 ¥69.90 ¥99.00

订阅专栏

前两篇我们讲了 BERT 的原理和应用，谷歌在发布 BERT 时就引起了不小的轰动，因为当时 BERT 在 11 项 NLP 任务测试中刷新了当时的最高成绩，这个震撼还未平息，CMU 与谷歌大脑提出的 XLNet 又掀起一阵高潮，它在 20 个 NLP 任务上超过了 BERT 的表现，尤其是在难度很大的大型 QA 任务 RACE 上也足足超越 BERT 模型 6~9 个百分点，在其中 18 个任务上都取得了当时最佳效果。今天我们就来看看 XLNet 的原理和应用。

前面的课程中我们有讲过语言模型，即根据上文内容预测下一个可能的单词，这种类型的语言模型也被称为自回归语言模型。例如 GPT 是典型的自回归语言模型，此外 ELMo 本质上也是自回归语言模型，虽然它使用了双向 LSTM，但其实在每个方向上都是一个单向的自回归语言模型，两个方向上的 LSTM 的训练过程其实是独立的，只是最后将两个方向的隐节点状态拼接到一起。

另外还有一种语言模型叫做自编码语言模型，BERT 就是典型的代表，它在预训练时随机将所有句子中 15% 的 token 用 <Mask> 来替代，然后再根据上下文来预测这些被替代掉的原单词，这种方法可以使模型充分用到上下文的信息。

不过这两类语言模型都有不足之处，自回归语言模型只是单向的，不能考虑到双向的信息，自编码语言模型虽然具有了双向的功能，但是在预训练时会出现特殊的 <Mask> token，可是到了下游的 fine-tuning 中又不会出现这些 <Mask>，这就

了解本专栏

Alice熹爱学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简述 XLNet 的原理和应用

前两篇我们讲了 BERT 的原理和应用，谷歌在发布 BERT 时就引起了不小的轰动，因为当时 BERT 在 11 项 NLP 任务测试中刷新了当时的最高成绩，这个震撼还未平息，CMU 与谷歌大脑提出的 XLNet 又掀起一阵高潮，它在 20 个 NLP 任务上超过了 BERT 的表现，尤其是在难度很大的大型 QA 任务 RACE 上也足足超越 BERT 模型 6~9 个百分点，在其中 18 个任务...
复制链接

扫一扫