LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning

本文是LLM系列文章,针对《LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning》的翻译。

LISA:用于内存高效的大型语言模型微调的分层重要性采样

摘要

自大型语言模型(LLM)首次出现以来,机器学习社区已经取得了令人印象深刻的进步。然而,他们的大量内存消耗已经成为大规模训练的一个重要障碍。例如,7B模型通常需要至少60GB的GPU内存和全参数训练,这给无法访问高资源环境的研究人员带来了挑战。已经提出了诸如低秩自适应(LoRA)之类的参数有效微调技术来缓解这个问题。然而,在大多数大规模微调设置中,它们的性能没有达到全参数训练的水平,因为它们将参数搜索限制在低秩子空间。为了弥补这一不足,我们研究了LoRA在微调任务中的分层性质,并观察到不同层之间权重规范的意外但一致的偏斜度。利用这一关键观察结果,发现了一种令人惊讶的简单训练策略,它在各种设置中都优于LoRA和全参数训练,内存成本低至LoRA。我们将其命名为分层重要性采样AdamW(LISA),这是LoRA的一个很有前途的替代方案,它将重要性采样的思想应用于LLM中的不同层,并在优化过程中随机冻结大多数中间层。实验结果表明,在GPU内存消耗相似或更少的情况下,LISA在下游微调任务中超过了LoRA,甚至超过了全参数调优,其中LISA在MT Bench得分方面始终优于LoRA超过10%-35%,同时在MMLU、AGIEval和WinoGrande中实现了同等或更好的性能。在大型模型上,特别是LLaMA-2-70B,LISA在MT Bench、GSM8K和PubMedQA上超过了LoRA,证明了其在不同领域的有效性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值