XLNet

最新推荐文章于 2024-08-09 07:56:16 发布

荒山之夜

最新推荐文章于 2024-08-09 07:56:16 发布

阅读量953

点赞数

分类专栏：深度学习trick

本文链接：https://blog.csdn.net/qq_29134801/article/details/93384861

版权

深度学习trick 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1.克服了BERT没有考虑文本顺序的缺陷。
2.可以考虑文本内容，还是双向的，文本的顺序还是随机的一个模型。
3.用了最先进的transformer-XL,获得了更牛逼的性能。
它比BERT在20个任务上好，还在18个任务上实现了最好的结果。

1.作者用随机所有句子中的顺序，加上双向lstm,从而获得了context信息
（评价：完全摒弃了语句的顺序）
2、因为没有mask,所以去除了pretraining-finetune-gap , 而且可以用lstm,消除了BERT的独立性。
（我个人是不服的哈）
原来，是有一个position enccoder支撑

循环机制和Transformer-XL作为encoding输入到了文章中。
为了使Transformer适应我们这种情况，我们队transformer-XL进行了修改

这是传统的LSTM模型的机制，用过去的信息去预测将来的信息，在文章中被称为AR机制，也就是auto_regressive机制；
在这里插入图片描述
这是BERT的模型机制，其中m的意思是被mask的信息，在文章中被称为AE，model,也就是autoencoding模型

在整个机制中，

INdependence Assumption: 在BERT中，每一个单词都是假设独立的，单独被mask, 所以捕捉不到其中的关联。
INPUT noise: BERT中的mask机制中的mask,会在pretrain和fine-tainne中形成语义鸿沟。
Context depencency: 更好的捕捉双向内容。

denoising 降噪

Remark

在这里插入图片描述
上图描述的是Permutation Language Modeling
其代表的意思是句子的顺序是随机采集的，而句子的连接是随机建立的
我无法理解mem是什么意思。

在这个过程中，因为很可能预测的句子和实际的值是不同的，所以可以有效的学习到语义（我无法理解）
然后句子的顺序是不变的，同样attention里面还有个mask机制

问题：
如果两个相同的输入集合，要预测的值不一样，但它们的标签都是-1，那么就使用的公式是在这里插入图片描述
为了解决某个矛盾，所以用了双层的transformer
第一层，encode context 和 $x_t$ 自己
第二层，然后是 $g_\theta$ 只和x_z<t 和位置信息z_t有关。