ICLR 2024:长文本的大模型微调--LongLoRA

论文提出LongLoRA,一种有效的方法,通过shiftshortattention(S2-Attn)扩展大语言模型的上下文长度,降低计算负担,同时保持模型在长文本处理上的性能。S2-Attn在训练时引入转移稀疏注意力,而在推理时保持标准注意力,兼容现有加速机制。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

后台留言『交流』,加入 NewBee讨论组

https://github.com/dvlab-research/LongLoRA/tree/main

1. 基本信息和摘要

论文题目:LongLoRA: Efficient Fine-Tuning of Long-Context Large Language Models

作者:ICLR author

摘要:本文提出了一种高效的微调方法,可以扩展预训练的大型语言模型(LLMs)的上下文长度,而不需要太多的计算成本。

LLM在训练时通常使用预先定义好的上下文长度,例如Llama是2048,Llama2是4096。类似summarizing long documents或者回答很长的问题时,LLM不能直接处理。有一些最近的工作尝试解决这种限制。但这些工作都需要finetune会引入较大的计算负担。

一个直接的做法是使用LoRA取代全参数finetune,但是我们研究发现这样在效率和有效性上都不好。LoRA在扩展文本长度时会导致perplexity升高(Table 3),即使把LoRA的rank提高的256也不能解决这个问题。在计算复杂度上,LoRA本身并不能减少计算复杂度,并不能解决长文本下attention layer层的计算量成平方增长的问题。

因此作者提出了LongLoRA,能够高效的扩展预训练LLM的文本长度。作者认为short attention可以用来近似训练长文本,并提出了shift short attention(S2-Attn)用于替代标准的attention。

da59a2dc61f58d599515e05102550d66.png
图 2:LongLoRA 概述。我们在微调过程中引入了转移稀疏注意力(S2-Attn)。训练后的模型在推理时保留了原始标准的自注意力。除了在线性层中训练 LoRA 权重之外,LongLoRA 还进一步使嵌入层和归一化层变得可训练。此扩展对于上下文扩展至关重要,并且仅引入了最少数量的附加可训练参数。

如Fig.2所示,S2-Attn将输入tokens分为多个组,并在各个组内单独计算attention。和Swin-Transformer有些类似。使用S2-Attn微调的模型在inference阶段仍然使用标准的attention,这样可以直接兼容现有的各种推理加速机制,例如FlashAttn-2。

94a1800a977b300932c7597e143f8886.png
图 3:S2-Attn 说明。它涉及三个步骤。首先,它将沿attention head维度的特征分成两个块。其次,其中一个块中的令牌被移动组大小的一半。第三,我们将令牌分成组并将它们重塑为批量维度。注意力仅在我们的每个组中进行计算,而信息通过转移在组之间流动。转移可能会导致潜在的信息leakage,而通过对注意力掩模进行小的修改很容易防止这种情况。
3f39f305afa8c1f924acf0ebf4b4fdd1.png

一起交流

想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定o要备注信息才能通过)

db4e991bdf707ab0939d17dc11b6035e.jpeg

3acd676873145e50f10a1e1df800d9b1.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值