1,作为Autoregressive语言模型的XLNet何以能够在发布时在20个语言任务上都能够正面挑战作为Autoencoding与训练领域霸主地位的BERT?
2,XLNet背后Permutation LM及Two-stream self-attention数学原理解析
3,Autoregressive LM和Autoencoding LM数学原理及架构对比
4,Denoising autoencoding机制的数学原理及架构设计
5,对Permutation进行Sampling来高性价比的提供双向信息数学原理
6,XLNet的Permutation实现架构和运行流程:content stream、query stream
7,XLNet中的缓存Memory记录前面Segment的信息
8,XLNet中content stream attention计算
9,XLNet中query stream attention计算
10,使用Mask Matrices来实现Two-stream Self-attention
11,借助Transformer-XL 来编码relative positional 信息
12,XLNet源码实现之数据分析及预处理
13,XLNet源码实现之参数设定
14,Embeddings源码实现
15,使用Mask实现causal attention
16,Relative shift数学原理剖析及源码实现
17,XLNet Relative attention源码完整实现
18,content stream源码完整实现
19,queery stream源码完整实现