Longformer: The Long-Document Transformer

最新推荐文章于 2024-05-05 20:25:32 发布

leap_ruo

最新推荐文章于 2024-05-05 20:25:32 发布

阅读量476

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/airstudy/article/details/119088763

版权

Longformer是2020年提出的一种改进的Transformer模型，它使用线性复杂度的注意力机制，解决了传统Transformer在处理长文本时的时间和空间效率问题。通过结合局部（local）和全局（global）注意力，Longformer能在长文档任务中表现出色，同时在预训练和下游任务上优于RoBERTa。

摘要由CSDN通过智能技术生成

前言：
《Longformer: The Long-Document Transformer》于2020年4月发表，相较于Transformer，Longformer利用local attention和global attention在长文本任务的处理上大大减低了时间负责度和空间负责度。

论文：https://arxiv.org/pdf/2004.05150.pdf
源码：https://github.com/allenai/longformer

摘要

基于Transformer的模型不能处理长文本，因为其自注意力操作（消耗的时间和空间）会随着序列长度成平方增长。为解决这个限制，我们提出了Longformer，它使用随着序列长度线性变化的attention机制，这样便于处理上千个token甚至更多。Longformer的attention机制用窗口调节的local attention和任务驱动的global attention联合来替换标准的self-attention。我们在字符级别语言模型上评估Longformer，在text8和enwik8上取得了最好的效果。与大部分先前的研究工作做对比，我们也预训练Longformer并在各种各样的下游任务微调它。在长文档任务上我们预训练的Longformer优于RoBERTa，并且在WikiHop和TriviaQA.1上刷新最佳效果。

简介

Transformer的成功一定程度上源于自注意力机制，它使得网络可以通过整个句子学习到上下文信息。然而，这也使得内存和计算量随着max sequence的增长而呈平方增长趋势。

Longformer则可解决这一问题，那么它是如何做到的呢？Longformer是修正版的Transformer，它的attention机制，

最低0.47元/天解锁文章

leap_ruo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Longformer: The Long-Document Transformer

前言：《Longformer: The Long-Document Transformer》于2020年4月发表，相较于Transformer，Longformer利用local attention和global attention在长文本任务的处理上大大减低了时间负责度和空间负责度。论文：https://arxiv.org/pdf/2004.05150.pdf源码：https://github.com/allenai/longformer摘要基于Transformer的模型不能处理长文本，因为其
复制链接

扫一扫

专栏目录