参考文献:
- 论文地址:https://arxiv.org/pdf/1906.08237.pdf
- 预训练模型及代码地址:https://github.com/zihangdai/xlne
- 知乎专栏:https://zhuanlan.zhihu.com/p/70473423
阅读笔记主要从以下几个方面展开:
- Abstract 摘要
- Autoregressive LM VS Bert 自回归语言模型 vs bert
- Problems 论文主要讨论的问题
- Permutation Language Model 排列语言模型
- Two-Stream Self-Attention for Target-Aware Representations 双流self-attention
- Incorporating Ideas from Transformer-XL 应用 Transformer-XL的思路
- Experiments 实验
首先概括下这篇文章的核心思路,这