NLP(十二):Transformer-XL和XLNet
1.Transformer-XL1.1 Vanilla Transformer Language Models把长文本的输入切分成多个SegmentTransformer-XL: Attentive Language Models Beyond a Fixed-Length Context(Google)(ICLR 2019 被拒)基于一种相对位置编码方式建立循环的transformer建模机制,解决长文本的建模,捕获超长距离依赖。优点在几种不同的数据集(大/小,字符级别/单词级别等)均实现了最先








