使用MindStudio进行xlnet模型训练

最新推荐文章于 2024-08-21 15:12:02 发布

Wangsong1995

最新推荐文章于 2024-08-21 15:12:02 发布

阅读量141

点赞数

文章标签： xlnet 人工智能 bert

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38239810/article/details/128293102

版权

详情请点击：使用MindStudio进行xlnet模型训练 - 知乎

BERT 本身很有效，但它本身也存在一些问题，比如不能用于生成、以及训练数据和测试数据的不一致(Discrepancy)。在本文中，我们重点介绍比 BERT 更强大的预训练模型

-XLNet，它为了达到真正的双向学习，采用了 Permutation 语言模型、以及使用了双流自注意力机制，并结合了 Transformer-XL 的相对位置编码。

作者发现，只要在 AR 中再加入一个步骤，就能够完美地将 AR 与 AE 的优点统一起来，那就是提出 Permutation Language Model（PLM）。具体实现方式是，通过随机取一句话的一种排列，然后将末尾一定量的词给“遮掩”（和 BERT 里的直接替换 “[MASK]” 有些不同）掉，最后用 AR 的方式来按照这种排列依次预测被“遮掩”掉的词。我们可以发现通过随机取排列（Permutation）中的一种，就能非常巧妙地通过 AR 的单向方式来习得双向信息了。

论文中 Permutation 具体的实现方式是通过直接对 Transformer 的 Attention Mask 进行操作。比如说序号依次为 1234 的句子，先随机取一种排列 3241。于是根据这个排列我们就做出类似上图的 Attention Mask。先看第 1 行，因为在新的排列方式中 1 在最后一个，根据从左到右 AR 方式，1 就能看到 234 全部，于是第一行的 234 位置是红色的（没有遮盖掉，会用到），以此类推。第 2 行，因为 2 在新排列是第二个，只能看到 3，于是 3

位置是红色。第 3 行，因为 3 在第一个，看不到其他位置，所以全部遮盖掉...

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用MindStudio进行xlnet模型训练

先看第 1 行，因为在新的排列方式中 1 在最后一个，根据从左到右 AR 方式，1 就能看到 234 全部，于是第一行的 234 位置是红色的（没有遮盖掉，会用到），以此类推。具体实现方式是，通过随机取一句话的一种排列，然后将末尾一定量的词给“遮掩”（和 BERT 里的直接替换 “[MASK]” 有些不同）掉，最后用 AR 的方式来按照这种排列依次预测被“遮掩”掉的词。我们可以发现通过随机取排列（Permutation）中的一种，就能非常巧妙地通过 AR 的单向方式来习得双向信息了。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。