Longformer The Long-Document Transformer

bdrjF1.png

Longformer: The Long-Document Transformer

Abstract

BERT-base无法处理长文本序列,因此注意力操作与序列长度成平方关系,本文提出了一种新的注意力计算方法用于解决这个问题,使得平方关系变成线性关系,能够处理更长的文本序列,具体来说,通过空洞卷积的思想将局部窗口注意力和全局注意力结合,本文称之为Longformer。

1 Introduction

Transformer的成功在一定程度上归功于自注意力的计算,能够使网络从整个序列中捕获上下文信息,但是也存在一个弊端,注意力的计算随着文本序列长度的增加对内存和计算能力的要求越来越高,这使得处理长文本序列的成本比较高,为了解决这一问题,本文对transformer进行改进,提出了一种随着序列长度呈线性增加的自注意力操作,以适用于长文本。

bdrxW6.png

现有的方法处理长文本是通过将上下文分割或缩小为较小的序列,然后通过BERT学习序列表示,但是这种分割会潜在的导致重要的跨块信息丢失,为了缓解这个问题,现有的方法通过复杂的体系结构来增强块与块之间的交互,本文提出的Longformer是能够使用多个attention层构建整个上下文的上下文表示,从而减少复杂的体系结构的设计。

Longformer的注意机制是有窗口的local-context自注意力和end task motivated global attention的组合,这种注意力机制编码了对任务的归纳bias。作者通过消融试验发现,local-context注意力主要用于构建上下文表征,而global attention构建用于预测的full sequence表征。

2 LongFormer

2.1 Attention Pattern

2.1.1 Sliding Window

本文的注意力模式在每个token周围使用

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

「已注销」

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值