《Longformer: The Long-Document Transformer》（）论文阅读

最新推荐文章于 2024-05-05 20:25:32 发布

筱踏云

最新推荐文章于 2024-05-05 20:25:32 发布

阅读量491

点赞数 1

分类专栏：论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34372112/article/details/108772081

版权

论文笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

前言

论文地址：https://arxiv.org/pdf/2004.05150.pdf
代码地址：https://github.com/allenai/longformer

1、Introduction

虽然 self-attention 的效果很好，但是它所需要的内存和算力会随序列呈平方增长。现在的方法大多是将上下文缩短或者划分为较小的序列，以限制这些序列再512的长度内。

为了解决这个问题，提出了 Longformer。

它包含局部 attention 和全局的 attention。

2、Related Work

过。

3、Model

为了解决这个问题，作者根据一个“attention pattern”来稀疏完整的自注意力矩阵

3.1、Attention Pattern

3.1.1 Sliding Window

滑动窗口 attention，就是围绕每个token采用固定大小的窗口计算局部的注意力，可以对照上面的图看。计算复杂度为 $O (n * w)$ ，n 为句子长度，w 为窗口大小。

3.1.2 Dilated Sliding Window

跟上面的区别是，这个滑动窗口是有缝隙的，类似与CNN中的空洞卷积。在mutilhead attention中，作者设置允许一些没有空洞的head专注于局部上下文，而其他具有空洞的head专注于较长的上下文，最终发现这样的做法能提升整体的表现。

3.1.3 Global Attention

对于一些任务，比如说QA，需要通过question去找document里的答案，因此局部注意力在这种情况下就不适用。

作者就在预先选择的位置上添加了全局注意力。

global attention是视具体任务而定的，换个任务可能之前的做法就不适用了。

3.2

稀疏矩阵：所有存储都是用稀疏矩阵，如果值为0，都跳过计算，提高计算效率。
矩阵乘法：跳跃滑动窗口比较特殊，不能直接使用高效的矩阵乘法。作者自己实现了基于Cuda的高效算法。
训练技巧：阶段式的训练方式，序列长度和窗口大小逐步提高，窗口大小和序列长度增加一倍，并将学习率减半。这样可以加快训练速度。

4、 Autoregressive Language Modeling

过。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《Longformer: The Long-Document Transformer》（）论文阅读

前言论文地址：https://arxiv.org/pdf/2004.05150.pdf代码地址：https://github.com/allenai/longformer1、Introduction虽然 self-attention 的效果很好，但是它所需要的内存和算力会随序列呈平方增长。现在的方法大多是将上下文缩短或者划分为较小的序列，以限制这些序列再512的长度内。为了解决这个问题，提出了 Longformer。它包含局部 attention 和全局的 attention。2、Rela
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。