Longformer: The Long-Document Transformer

最新推荐文章于 2024-05-05 20:25:32 发布

qq_38317254

最新推荐文章于 2024-05-05 20:25:32 发布

阅读量357

点赞数

分类专栏： NLP 论文阅读

本文链接：https://blog.csdn.net/qq_38317254/article/details/118015035

版权

NLP 同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

论文阅读

13 篇文章 0 订阅

订阅专栏

与reformer都是解决长序列问题：

Longformer在两个字符级语言建模任务上都取得了SOTA的效果。并且作者用Longformer的attention方法继续预训练RoBERTa，训练得到的语言模型在多个长文档任务上进行fine-tune后，性能全面超越RoBERTa

由于self-attention机制，无法处理长序列，用reformer里面的例子就是：计算量与句子长度的平方成正比，比如64K个token的句子，经过self-attention之后用float32存储需要16GB。

提出：随序列长度线性增加的注意力机制，将a local windowed attention（局部窗口注意力---构建上下文表示）与task motivated global attention（任务驱动全局注意力---用于构建预测的完整序列表示）结合。

定义了某种形式的稀疏注意力模式，避免了计算全部的注意力矩阵，与这种方法相似的是Sparse Transformers，使用8*8的Dilated（空洞）滑动窗口。

处理长文本的一些方法：

Bert直接截取最多512个token进行处理；
把文档分割成512个token大小的块，分开处理，然后将activations与特定的任务结合起来此文；
使用两阶段模型，第一阶段检索相关文档，第二阶段进行答案提取；

所有的两阶段的方法都会因为截断（truncating）或则分块（chunking）而丢失信息，Longformer可以处理长序列而不用截断或分块。

Longformer

根据一种“attention pattern”来稀疏化full self-attention矩阵，该模式指定了一对相互注意的输入位置。

Attention Patten

Sliding Window(滑动窗口)

滑动窗口attention，即对每个token采用固定大小的窗口计算局部attention

固定的窗口大小为 $w$ ,每个token计算其两边各 $w/2$ 个tokens。计算的复杂度为 $O(n\times w)$ ，计算的规模随序列长度线性增加。Transformer的层数为 $l$ ，最顶层的receptive field的大小为 $l\times w$ ，可以根据效率和模型的表达能力调整 $w$ 的值。具体实现的时候，设置的窗口大小 $w=512$ 。Longformer并不轻量。