Longformer: The Long-Document Transformer

Longformer: The Long-Document Transformer

Allen AI 研究院


Abstract

Longformer提供了一种attention机制,可以直接作为传统transformer的替代。

Longformer的attention由local window attention + global attention组成。

Task:MLM

Dataset:text8 and enwik8

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kpeMm7sB-1605344562451)(/Users/ayayo/Library/Application Support/typora-user-images/image-20201114161233036.png)]

Introduction

动机1: transformer的有效性,但却有平方级的计算量

动机2: 之前对于长文本的处理都是先对文本进行分段,显然这样的分段会损失掉段与段之间的交互信息,所以再针对特征的任务对段与段之间的交互进行处理。

本文解决: 多层attention(三种attention patten)叠加,扩大感受野,从而对全局文本信息进行表达。

local window attention: 提供类似于CNN的inductive bias

global attention:全局文本表达

Related works

其他方法的不足:

​ left-to-right :用于自回归模型、很难进行迁移学习

​ Sparse Transformer: 使用8*8的窗口滑块,都使用了自定义的CUDA内核,但是本文用的TVM更易维护

​ 针对特定任务的方法:不够灵活,提供了global attention解决这个问题
在这里插入图片描述

Models

Sliding window

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VjYcG1VK-1605344562453)(/Users/ayayo/Library/Application Support/typora-user-images/image-20201114163047909.png)]

​ 把长文本分成很多个chunk,每个chunk的大小是2w,其中前w个与前一个chunk重叠,每个chunk做self-attention,然后再把这些chunk的结果合并成这样的对角线形式。

窗口大小w,encoder层数l,感受野大小l*w

Dilated Sliding Window

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EyvcWS9H-1605344562454)(/Users/ayayo/Library/Application Support/typora-user-images/image-20201114164052476.png)]

和dilated CNN一样,加了个空洞步长d,感受野大小变为:l * d * w

Global Attention

在这里插入图片描述

针对特定任务自然语言任务

如:文本分类,需要在Token前加一个 [CLS] token;QA任务,需要问题和回答拼接起来做self-attention,Sliding window提供的attention不足以更好的处理这些任务。

解决:引入Global Attention, 对某些指定的Token做Global Attention,然后再与local attention相加。

这里其实有一个问题,当选择了全部token进行global attention,那本次计算消耗仍然是n的平方级,所以好像没那么适合用于QA任务,所以最好不是所有层都做global attention,并且选择token的时候也尽可能少;

Autoregressive Language Modeling

将该模型用于自回归语言建模,即MLM。

  1. 每层使用不同的window size, 底层w较小,高层w越高,这样做使得高层更专注于获得更多的全局表达、底层更专注于局部attention,同时也平衡了效率和性能。
  2. 只对高层encoder的两个head使用dilated sliding window。

Experiment

Ablation study
在这里插入图片描述
Pretrain
在这里插入图片描述

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值