刚才看了下大神 张俊林 在知乎上对XLNet的理解,看的热血沸腾的。这里将XLnet的重要贡献总结一下,方便以后查阅。
一、主要贡献有3处,具体如下:
(1)在自回归模型中,引入了可以查看双向信息的机制,即Permutation Language Model,这个是XLNet的主要理论创新。就是对于生成类的任务,能够在维持表面从左向右的生成过程前提下,模型里隐含了上下文的信息,所以看上去,XLNet貌似应该擅长生成类型的NLP任务,比如文本摘要,机器翻译等。而Bert这种DAE模式,在生成类NLP任务中,就面临训练过程和应用过程不一致的问题,导致生成类的NLP任务到目前为止都做不太好。
注意:在回归模型(RNN)中,模型的参数是共享的。
(2)引入了Transformer-XL的主要思路:相对位置编码以及分段RNN机制。实践已经证明这两点对于长文档任务是很有帮助的。
(3)加大增加了预训练阶段使用的数据规模,这个明显走的是GPT2.0的路线。
二、分析XLNet中的实验表明其价值在于:
(1)阅读理解任务中,XLNet效果明显。
(2)文本分类任务和信息检索任务,相对Bert,XLNet效果有提升,但是幅度不算大。
三、总结
XLNet综合而言,效果是优于Bert的,尤其是在长文档类型任务,效果提升明显。
对论文原理的解读,这篇文章讲得我很有感觉。我怀疑自己好像在开车,只是没有证据。
XLNet的要点理解
最新推荐文章于 2021-11-13 08:59:57 发布