简述 XLNet 的原理和应用

前两篇我们讲了 BERT 的原理和应用,谷歌在发布 BERT 时就引起了不小的轰动,因为当时 BERT 在 11 项 NLP 任务测试中刷新了当时的最高成绩,这个震撼还未平息,CMU 与谷歌大脑提出的 XLNet 又掀起一阵高潮,它在 20 个 NLP 任务上超过了 BERT 的表现,尤其是在难度很大的大型 QA 任务 RACE 上也足足超越 BERT 模型 6~9 个百分点,在其中 18 个任务上都取得了当时最佳效果。今天我们就来看看 XLNet 的原理和应用。


前面的课程中我们有讲过语言模型,即根据上文内容预测下一个可能的单词,这种类型的语言模型也被称为自回归语言模型。例如 GPT 是典型的自回归语言模型,此外 ELMo 本质上也是自回归语言模型,虽然它使用了双向 LSTM,但其实在每个方向上都是一个单向的自回归语言模型,两个方向上的 LSTM 的训练过程其实是独立的,只是最后将两个方向的隐节点状态拼接到一起。

另外还有一种语言模型叫做自编码语言模型,BERT 就是典型的代表,它在预训练时随机将所有句子中 15% 的 token 用 <Mask> 来替代,然后再根据上下文来预测这些被替代掉的原单词,这种方法可以使模型充分用到上下文的信息。

不过这两类语言模型都有不足之处,自回归语言模型只是单向的,不能考虑到双向的信息,自编码语言模型虽然具有了双向的功能,但是在预训练时会出现特殊的 <Mask> token,可是到了下游的 fine-tuning 中又不会出现这些 <Mask>,这就

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值