“芝麻街”喜添新成员——Big bird

最新推荐文章于 2023-03-08 19:04:30 发布

JasonLiu1919

最新推荐文章于 2023-03-08 19:04:30 发布

阅读量1.5k

点赞数

分类专栏：论文解读语言模型 NLP 文章标签：人工智能 nlp

本文链接：https://blog.csdn.net/ljp1919/article/details/108563025

版权

论文解读同时被 3 个专栏收录

40 篇文章

订阅专栏

NLP

37 篇文章

订阅专栏

语言模型

19 篇文章

订阅专栏

“芝麻街”喜添新成员——Big bird

0. 背景

题目：
Big Bird: Transformers for Longer Sequences
机构：Google Research
作者：Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed
论文地址：https://arxiv.org/abs/2007.14062

Big Bird 按照道理讲是中了NeurIPS 2020，但是看了下官网的论文接收列表，名字是：“Big Bird: Bert for Longer Sequences”
https://neurips.cc/Conferences/2020/AcceptedPapersInitial
在这里插入图片描述

摘要

当下号称地表最强的NLP模型都基于Transformer，但Transformer的全注意力机制带来的序列长度二次依赖问题导致这些模型处理长文本时候显得黔驴技穷(主要是内存消耗太多了)。为解决序列长度二次依赖限制这个问题，且保持原有网络的表现力和灵活性，Google Research提出Big Bird，其核心是使用稀疏注意力机制将二次依赖降至线性。文中证明Big Bird是一个通用的序列函数近似器且是图灵完备的，从而能够保持二次全注意力模型的性质。另外，图灵完备也就意味着，一切可以计算的问题，Big Bird都能计算，理论上，它能够用来解决任何算法。
在相同的硬件配置下，Big Bird所能够处理的序列长度是BERT的8倍。由于能够处理较长的上下文，Big Bird在多个NLP任务数据集如问答和文本摘要上取得了SOTA的结果。比如Big Bird 在 TriviaQA上的最新排名：
在这里插入图片描述
看看Big Bird的屠榜效果：

Big Bird 架构

由于BERT使用的是完全的自注意力机制，即每个token都需要attend到其他每个token，所以内存消耗就是序列长度的二次方。Big Bird模型中引入了通用化的注意力（即稀疏注意力机制）将二次依赖降至线性。Big Bird中的注意力机制主要有3个方面：
(1)Random attention，即随机注意力。每个query token随机attend到 r 个 token，比如当 r=2，则会得到稀疏的attention。
(2)Sliding window attention，即局部注意力。一个token会attend到窗口大小为w(w=3)的token，这与Longformer使用局部滑动窗口mask降低计算量从而使BERT能够处理更长的序列很类似。
(3)Global attention，即全局注意力。使用Global tokens进行全局的attend。Global tokens会attend到全部的token，同时全部的token也会attend到这些Global tokens。这些Global tokens的定义有两种方式：ITC(internal transformer construction)和ETC(extended transformer construction)。ITC选用现有的一些token作为“global” token，而ETC则是通过添加一些token(比如 CLS) 作为
“global” token。
在这里插入图片描述

Figure 1中的白色区域表示没有attention。(a)r=2的random attention，(b)w=3的sliding window attention, ©g=2的 global attention, (d)Big Bird中联合使用的注意力
从下图Table 1 可以看出无论是单一采用随机注意力机制、局部注意力机制，还是二者结合的方式，都没有三者联合的效果好。换句话说，随机+局部+全局的注意力机制融合，能够最大程度上接近BERT-base的各项指标。
在这里插入图片描述
PS：整体来说，Big Bird和 Longformer 或者 ETC模型还是很类似的。

实验结果

使用文中的稀疏注意力机制能够处理的文本长度是BERT的8倍。以下是在各个NLP数据集上的实验结果。

Pretraining & MLM

使用MLM目标进行预训练，从Table 3的结果可以看出，Big Bird和 Longformer表现均优于RoBERTa。
在这里插入图片描述

问答任务：

各模型在问答任务的dev数据集上的表现如 Table 4所示。可以看出，在各个任务数据集的各项指标上，BigBird的两个模型都优于与RoBERTa和Longformer。
在这里插入图片描述

在对模型进行微调后，在Test数据集上的对比结果如 Table 5所示。BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA。需要指出的是这里的Big Bird是单模型，而Natural Questions任务排行榜top 3模型是多个模型集成的结果。
在这里插入图片描述

一句话，BigBird-ETC在问答任务上技压群雄。

文本分类任务

长文档分类实验效果如 Table 6所示。可以看出训练样本量较少时，Big Bird效果提升更显著。比如对于Arxiv数据集Big Bird能够高出此前最优结果5%。
在这里插入图片描述

文本摘要任务

Big Bird在文本摘要任务中的实验结果如 Table 8所示。
在这里插入图片描述

看到了吗，天马模型(Pegasus)加持BigBird之后简直逆天，再次刷爆了新记录，地表最强，没有之一。

最后，文中还秀了一波Big Bird在基因组数据处理方面的效用，极具潜力。

总结：

BigBird模型中使用稀疏注意机制，使得二次依赖问题降为线性。此外BigBird满足了一些理论结果:(1)是序列函数的普遍逼近器(2)也是图灵完备的。BigBird在一些NLP任务上比如问答和文本摘要上刷新了记录。进一步介绍将基于注意力的上下文语言模型应用到NDA中的效果，在对模型微调，可以实现诸如启动子区域预测和非编码变异的预测等下游任务。