随着序列长度的增加,Transformer中注意力机制的计算量会持续上升,导致计算代价较高。
不过为了解决这个问题,业内也出现了许多针对Transformer的魔改,这里给大家整理了Transformer魔改的方案论文,大家可以学习一下。
1、Longformer: The Long-Document Transformer
Longformer:长文档转换器
简述:本文中提出了Longformer,一种具有线性扩展注意力机制的模型,能够高效处理超长序列,它将局部窗口注意力与全局注意力相结合,可作为标准自注意力的替代。在字符级语言建模上,Longformer达到了最佳性能,并通过预训练和微调在多个长文档任务中超过了RoBERTa,刷新了WikiHop和TriviaQA的记录。此外研究人员还开发了Longformer的变体LED,适用于长文档的生成任务。
2、Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Transformer-XL:超越固定长度上下文的专注语言模型
简述:本文中提出了一种新的神经架构Transformer-XL,能够学习超过固定