Transformer热门魔改方案汇总!大大提升模型速度与效果!

随着序列长度的增加,Transformer中注意力机制的计算量会持续上升,导致计算代价较高。

不过为了解决这个问题,业内也出现了许多针对Transformer的魔改,这里给大家整理了Transformer魔改的方案论文,大家可以学习一下。

1、Longformer: The Long-Document Transformer

Longformer:长文档转换器

简述:本文中提出了Longformer,一种具有线性扩展注意力机制的模型,能够高效处理超长序列,它将局部窗口注意力与全局注意力相结合,可作为标准自注意力的替代。在字符级语言建模上,Longformer达到了最佳性能,并通过预训练和微调在多个长文档任务中超过了RoBERTa,刷新了WikiHop和TriviaQA的记录。此外研究人员还开发了Longformer的变体LED,适用于长文档的生成任务。

图片

2、Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL:超越固定长度上下文的专注语言模型

简述:本文中提出了一种新的神经架构Transformer-XL,能够学习超过固定

  • 33
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值