ICML 2024 | 新型傅立叶微调来了！脱离LoRA架构，训练参数大幅减少

PaperWeekly

于 2024-05-27 12:39:53 发布

阅读量120

点赞数 1

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247667282&idx=3&sn=78c618f73deb819cee95a544e250bf71&chksm=9757126cb9bc721754f1de40bb06bb254c56768a30c6cae42536297a14d41c45b43380963eae&scene=126&sessionid=0

版权

©作者 | 机器之心编辑部

来源 | 机器之心

本文介绍了香港科技大学（广州）的一篇关于大模型高效微调（LLM PEFT Fine-tuning）的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」，本文被 ICML 2024 接收，代码已开源。

论文标题：

Parameter-Efficient Fine-Tuning with Discrete Fourier Transform

论文链接：

https://arxiv.org/abs/2405.03003

项目链接：

https://github.com/Chaos96/fourierft

背景

大型基座模型在自然语言处理（NLP）和计算机视觉（CV）领域都获得了瞩目的成就。微调（Finetuning）大型基座模型，使其更加适应特殊的下游任务，成为了一项热门研究课题。然而，在模型越来越大，下游任务越来越多样的今天，微调整个模型带来的计算、存储消耗已大到不再能被接受。

LoRA 采用低秩拟合微调增量的方案，成功降低了大量的此类消耗，但每个适应器（adapter）的大小仍然是不可忽视的。这激发了本文的核心问题：相比 LoRA，如何进一步大幅减少可训练参数？此外，一个有趣的附加问题是能否采用更少的参数量得到高秩增量矩阵。

方法

傅立叶基底在各类数据压缩应用中广泛使用，例如一维向量信号和二维图像的压缩。在这些应用中，稠密的空域信号通过傅立叶变换被转化为稀疏的频域信号。基于这一原理，作者推测模型权重的增量也可以被视为一种空域信号，其对应的频域信号可以通过稀疏表示来实现。

在这一假设的基础上，作者提出了一种新的方法，用于在频域中学习增量权重信号。具体来说，该方法通过随机位置的稀疏频域信号来表示空域权重增量。在加载预训练模型时，首先随机选择 n 个点作为有效的频域信号，然后将这些信号拼接成一个一维向量。

在前向传播过程中，这个一维向量被用来通过傅立叶变换恢复空域矩阵；在反向传播过程中，由于傅里叶变换的可导性，可以直接对此可学习的向量进行更新。这种方法不仅有效减少了模型微调时所需的参数数量，同时保证了微调性能。通过这种方式，作者不仅实现了对大规模基础模型的高效微调，还展示了傅立叶变换在机器学习领域中的潜在应用价值。

得益于傅立叶变换基底的高信息量，仅需很小的 n 值即可达到与 LoRA 相当甚至超过 LoRA 的表现。一般来说，傅立叶微调的可训练参数仅为 LoRA 的千分之一到十分之一。

实验

1. 自然语言理解

作者在自然语言理解的 GLUE 基准测试上对傅立叶微调方法进行了评估。基线对比方法包括全量微调（FF，Full Finetuning）、Bitfit、适应器微调（Adapter Tuning）、LoRA、DyLoRA 和 AdaLoRA。下表展示了各种方法在 GLUE 各个任务上的表现及其所需的训练参数量。结果表明，傅立叶微调以最少的参数量达到了甚至超越了其他微调方法的性能。

2. 自然语言指令微调

大模型的自然语言生成是目前模型微调的重要应用领域。作者在 LLaMA 系列模型、MT-Bench 任务和 Vicuna 任务上评估了傅立叶微调的性能。结果显示，傅立叶微调以极低的训练参数量达到了与 LoRA 相似的效果，进一步验证了傅里叶微调方法的通用性和有效性。

3. 图像分类

作者在 Vision Transformer 上测试了傅里叶微调的性能，涵盖了 8 个常见的图像分类数据集。实验结果表明，虽然在图像分类任务中傅立叶微调相较LoRA的压缩率提升并不比自然语言任务中显著，但其仍然以远小于 LoRA 的参数量超越了 LoRA 的效果。这进一步展示了傅立叶微调在不同应用领域中的有效性和优势。

4. 突破低秩

在 GLUE 基准的 RTE 数据集上，FourierFT 可以实现明显高于 LoRA (通常为 4 或 8) 的增量的秩。

5. GPU 资源消耗

微调过程中，FourierFT 可以实现比 LoRA 更少的 GPU 消耗。下图为采用单张 4090 显卡在 RoBERTa-Large 模型上的巅峰内存消耗。

结论

作者介绍了一种名为傅立叶微调的高效微调方法，通过利用傅里叶变换来减少大基础模型微调时的可训练参数数量。该方法通过学习少量的傅里叶谱系数来表示权重变化，显著降低了存储和计算需求。实验结果显示，傅立叶微调在自然语言理解、自然语言生成、指令调优和图像分类等任务上表现优异，与现有的低秩适应方法（如 LoRA）相比，傅立叶微调在保持或超过 LoRA 性能的同时，所需的可训练参数大幅减少。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ICML 2024 | 新型傅立叶微调来了！脱离LoRA架构，训练参数大幅减少

©作者 |机器之心编辑部来源 |机器之心本文介绍了香港科技大学（广州）的一篇关于大模型高效微调（LLM PEFT Fine-tuning）的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」，本文被 ICML 2024 接收，代码已开源。论文标题：Parameter-Efficient Fine-Tuning ...
复制链接

扫一扫