Longformer: The Long-Document Transformer

最新推荐文章于 2024-08-14 05:46:54 发布

ayayayayo

最新推荐文章于 2024-08-14 05:46:54 发布

阅读量1k

点赞数 2

分类专栏：学习笔记文章标签：深度学习自然语言处理

本文链接：https://blog.csdn.net/ayayayayo/article/details/109693343

版权

学习笔记专栏收录该内容

4 篇文章 1 订阅

订阅专栏

Longformer: The Long-Document Transformer

Allen AI 研究院

Abstract

Longformer提供了一种attention机制，可以直接作为传统transformer的替代。

Longformer的attention由local window attention + global attention组成。

Task：MLM

Dataset：text8 and enwik8

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kpeMm7sB-1605344562451)(/Users/ayayo/Library/Application Support/typora-user-images/image-20201114161233036.png)]

Introduction

动机1: transformer的有效性，但却有平方级的计算量

动机2: 之前对于长文本的处理都是先对文本进行分段，显然这样的分段会损失掉段与段之间的交互信息，所以再针对特征的任务对段与段之间的交互进行处理。

本文解决：多层attention（三种attention patten）叠加，扩大感受野，从而对全局文本信息进行表达。

local window attention: 提供类似于CNN的inductive bias

global attention：全局文本表达

Related works

其他方法的不足：

left-to-right ：用于自回归模型、很难进行迁移学习

Sparse Transformer：使用8*8的窗口滑块，都使用了自定义的CUDA内核，但是本文用的TVM更易维护

针对特定任务的方法：不够灵活，提供了global attention解决这个问题
在这里插入图片描述

Models

Sliding window

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VjYcG1VK-1605344562453)(/Users/ayayo/Library/Application Support/typora-user-images/image-20201114163047909.png)]

把长文本分成很多个chunk，每个chunk的大小是2w，其中前w个与前一个chunk重叠，每个chunk做self-attention，然后再把这些chunk的结果合并成这样的对角线形式。

窗口大小w，encoder层数l，感受野大小l*w

Dilated Sliding Window

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EyvcWS9H-1605344562454)(/Users/ayayo/Library/Application Support/typora-user-images/image-20201114164052476.png)]