ICML 2024 | 超越LoRA！港科大提出FourierFT：新型傅立叶微调！训练参数大幅减少

最新推荐文章于 2025-02-28 01:00:00 发布

Amusi（CVer）

最新推荐文章于 2025-02-28 01:00:00 发布

阅读量820

点赞数 1

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247599518&idx=3&sn=8b0bb98bfa67fdd15fbb222626583d54&chksm=f8bf0acda23ee2520a8664f545cf82a71ab571721175e04e07deb99030d1a3b1e43e74958389&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba/扩散/多模态】交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

本文介绍了香港科技大学（广州）的一篇关于大模型高效微调（LLM PEFT Fine-tuning）的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」，本文被 ICML 2024 接收，代码已开源。

论文地址：https://arxiv.org/abs/2405.03003
项目地址：https://github.com/Chaos96/fourierft

背景

大型基座模型在自然语言处理（NLP）和计算机视觉（CV）领域都获得了瞩目的成就。微调（Finetuning）大型基座模型，使其更加适应特殊的下游任务，成为了一项热门研究课题。然而，在模型越来越大，下游任务越来越多样的今天，微调整个模型带来的计算、存储消耗已大到不再能被接受。LoRA 采用低秩拟合微调增量的方案，成功降低了大量的此类消耗，但每个适应器（adapter）的大小仍然是不可忽视的。这激发了本文的核心问题：相比 LoRA，如何进一步大幅减少可训练参数？此外，一个有趣的附加问题是能否采用更少的参数量得到高秩增量矩阵。

方法

傅立叶基底在各类数据压缩应用中广泛使用，例如一维向量信号和二维图像的压缩。在这些应用中，稠密的空域信号通过傅立叶变换被转化为稀疏的频域信号。基于这一原理，作者推测模型权重的增量也可以被视为一种空域信号，其对应的频域信号可以通过稀疏表示来实现。

在这一假设的基础上，作者提出了一种新的方法，用于在频域中学习增量权重信号。具体来说，该方法通过随机位置的稀疏频域信号来表示空域权重增量。在加载预训练模型时，首先随机选择 n 个点作为有效的频域信号，然后将这些信号拼接成一个一维向量。在前向传播过程中，这个一维向量被用来通过傅立叶变换恢复空域矩阵；在反向传播过程中，由于傅里叶变换的可导性，可以直接对此可学习的向量进行更新。这种方法不仅有效减少了模型微调时所需的参数数量，同时保证了微调性能。通过这种方式，作者不仅实现了对大规模基础模型的高效微调，还展示了傅立叶变换在机器学习领域中的潜在应用价值。

得益于傅立叶变换基底的高信息量，仅需很小的 n 值即可达到与 LoRA 相当甚至超过 LoRA 的表现。一般来说，傅立叶微调的可训练参数仅为 LoRA 的千分之一到十分之一。

实验

1. 自然语言理解

作者在自然语言理解的 GLUE 基准测试上对傅立叶微调方法进行了评估。基线对比方法包括全量微调（FF，Full Finetuning）、Bitfit、适应器微调（Adapter Tuning）、LoRA、DyLoRA 和 AdaLoRA。下表展示了各种方法在 GLUE 各个任务上的表现及其所需的训练参数量。结果表明，傅立叶微调以最少的参数量达到了甚至超越了其他微调方法的性能。

2. 自然语言指令微调

大模型的自然语言生成是目前模型微调的重要应用领域。作者在 LLaMA 系列模型、MT-Bench 任务和 Vicuna 任务上评估了傅立叶微调的性能。结果显示，傅立叶微调以极低的训练参数量达到了与 LoRA 相似的效果，进一步验证了傅里叶微调方法的通用性和有效性。

3. 图像分类

作者在 Vision Transformer 上测试了傅里叶微调的性能，涵盖了 8 个常见的图像分类数据集。实验结果表明，虽然在图像分类任务中傅立叶微调相较LoRA的压缩率提升并不比自然语言任务中显著，但其仍然以远小于 LoRA 的参数量超越了 LoRA 的效果。这进一步展示了傅立叶微调在不同应用领域中的有效性和优势。

4. 突破低秩

在 GLUE 基准的 RTE 数据集上，FourierFT 可以实现明显高于 LoRA (通常为 4 或 8) 的增量的秩。

5.GPU 资源消耗

微调过程中，FourierFT 可以实现比 LoRA 更少的 GPU 消耗。下图为采用单张 4090 显卡在 RoBERTa-Large 模型上的巅峰内存消耗。

结论

作者介绍了一种名为傅立叶微调的高效微调方法，通过利用傅里叶变换来减少大基础模型微调时的可训练参数数量。该方法通过学习少量的傅里叶谱系数来表示权重变化，显著降低了存储和计算需求。实验结果显示，傅立叶微调在自然语言理解、自然语言生成、指令调优和图像分类等任务上表现优异，与现有的低秩适应方法（如 LoRA）相比，傅立叶微调在保持或超过 LoRA 性能的同时，所需的可训练参数大幅减少。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer5555，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看