Longformer: The Long-Document Transformer

Longformer是2020年提出的一种改进的Transformer模型,它使用线性复杂度的注意力机制,解决了传统Transformer在处理长文本时的时间和空间效率问题。通过结合局部(local)和全局(global)注意力,Longformer能在长文档任务中表现出色,同时在预训练和下游任务上优于RoBERTa。
摘要由CSDN通过智能技术生成

前言:
《Longformer: The Long-Document Transformer》于2020年4月发表,相较于Transformer,Longformer利用local attention和global attention在长文本任务的处理上大大减低了时间负责度和空间负责度。

论文:https://arxiv.org/pdf/2004.05150.pdf
源码:https://github.com/allenai/longformer

摘要

基于Transformer的模型不能处理长文本,因为其自注意力操作(消耗的时间和空间)会随着序列长度成平方增长。为解决这个限制,我们提出了Longformer,它使用随着序列长度线性变化的attention机制,这样便于处理上千个token甚至更多。Longformer的attention机制用窗口调节的local attention和任务驱动的global attention联合来替换标准的self-attention。我们在字符级别语言模型上评估Longformer,在text8和enwik8上取得了最好的效果。与大部分先前的研究工作做对比,我们也预训练Longformer并在各种各样的下游任务微调它。在长文档任务上我们预训练的Longformer优于RoBERTa,并且在WikiHop和TriviaQA.1上刷新最佳效果。

简介

Transformer的成功一定程度上源于自注意力机制,它使得网络可以通过整个句子学习到上下文信息。然而,这也使得内存和计算量随着max sequence的增长而呈平方增长趋势。

Longformer则可解决这一问题,那么它是如何做到的呢?Longformer是修正版的Transformer,它的attention机制,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值