Big Bird: Transformers for Longer Sequences论文详解

最新推荐文章于 2024-06-06 09:59:36 发布

相知无悔

最新推荐文章于 2024-06-06 09:59:36 发布

阅读量3.2k

点赞数 1

分类专栏：深度学习机器学习文章标签：自然语言处理机器学习神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mengzhengnan/article/details/108689270

版权

深度学习同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

文章目录

Big Bird大鸟模型
论文要解决问题
解决方法
实验
如有问题欢迎指出，参考论文https://arxiv.org/abs/2007.14062

Big Bird大鸟模型

论文要解决问题

如下图，Transformer模型中，注意力中Q、K点乘的内存、速度是序列长度的平方复杂度。长文本时，这个复杂度是不可接受的。一般做法是切成512的块，这种做法损失了块与块之间的信息，例如QA问题中Q必须看到所有A才行，文章摘要中必须看到全部文章。论文提出了一个O(n)复杂度的算法，能够解决以上问题，同时该论文还证明这种方法是图灵完备的。

解决方法

论文提出固定窗口、全局注意力、随机注意力。除了随机注意力外，这些方法几乎和longformer一样。longformer可以参考我的另外一篇文章longformer论文解析。和longformer相比，该文做了大量实验，且证明是图灵完备的。
如下图，横坐标是Q，纵坐标是K，QK的数量都是序列长度，所以是正方形。图中有色面积代表Q*K的数量。图a是随机注意，图b是固定窗口，c是全局注意力，d是三种汇总。
三种注意力都使用稀疏矩阵实现。

随机注意力

对于每个Q，都等概率随机关注r个Key,就像图中A所示。实验中r在200左右。

固定窗口注意力

对于每个Q，都关注相邻的左边w/2个Key，右边w/2个key。这个主要是大多数nlp任务中，都可以发现，相邻文本影响比较大。实验中w在252左右。

全局注意力

有部分特殊的Q关注全部的Key,论文中分两种。一种是BigBird-itc, 也就是在现有的token中选一部分Q关注全部的K。一种是BigBird-etc，增加token，关注全部的token。全局注意力的数量在256左右。

复杂度分析

三种注意力复杂度大概就是（200 + 252 + 256 ）* n的复杂度。我们可以看出，虽然是线性复杂度，但是系数非常大。而且稀疏矩阵的乘法远远低于高度优化的原始attention的dense矩阵乘法。但是太长文本，dense矩阵无法存储也无法计算，也是硬伤。

实验

文章中做了大量的长序列实验，甚至基因序列实验，证明的改方法的有效性。

三种注意力的消融实验。

用512长度的bert-base对比，三种注意力结合使用，基本接近bert-base效果。

语言模型对比roberta、longformer

长文本（4096）的语言模型中，优于roberta,itc低于longformer,etc高于longformer。

QA问题中对比longformer

QA问题是一个长文本分析的任务，每个Q都看到所以的A才能回答比较好。big bird-itc、etc都接近longformer。

长文本分类任务

在长文本分类任务中，Bigbird比robert提高5个点。

文章摘要任务

文章摘要是一个明显的长文本任务，摘要肯定不能只靠前512个token在生成。可以看到big-brid base large模型都明显提升。

基因语言模型实验

基因是明显非常长的片段，是一个非常好的长序列的任务。基因片段也是类似bert的方法，先用sentense piece方法切分成词，然后随机遮住片段（10% 的概率），训练模型预测遮住的片段，使用mlm模型。
实验结果展示，好于bert的效果。

如有问题欢迎指出，参考论文https://arxiv.org/abs/2007.14062

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Big Bird: Transformers for Longer Sequences论文详解

文章目录Big Bird大鸟模型论文要解决问题解决方法随机注意力固定窗口注意力全局注意力复杂度分析实验三种注意力的消融实验。语言模型对比roberta、longformerQA问题中对比longformer长文本分类任务文章摘要任务基因语言模型实验Big Bird大鸟模型论文要解决问题如下图，Transformer模型中，注意力中Q、K点乘的内存、速度是序列长度的平方复杂度。长文本时，这个复杂度是不可接受的。一般做法是切成512的块，这种做法损失了块与块之间的信息，例如QA问题中Q必须看到所有A才行
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。