微调神器!上海交大提出高效微调统一新范式!仅微调0.02%参数,性能接近全量微调!...

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

c011b9ffe0fe51a749df7f003808c477.png

ChouJay 投稿
转载自:量子位(QbitAI)

Scaling Laws当道,但随着大模型应用的发展,基础模型不断扩大的参数也成了令开发者们头疼的问题。

为了减轻训练负担,Adapter、Prompt-Tuning以及LoRA等高效微调(Parameter Efficient Fine-Tuning, PEFT)算法越来越受到大家伙的青睐。

那么,问题来了——

尽管近年来高效微调领域发展迅速,涌现了多种方法,但不同PEFT方法背后的数学基础几乎没有得到深入研究。

此外,不同PEFT方法之间的性能差异及其原因尚未系统地探讨。这种理论深度的缺乏限制了研究者对这些方法潜在优势和局限性的理解,阻碍了它们在实际应用中的优化和创新。

为了解决这一问题,来自上海交通大学的研究者们在对各种PEFT方法进行全面数学分析后,提出了一种新的框架——子空间微调,旨在将所有已知的PEFT方法统一在一个理论下,

fa0d97cfdb0ed8d9482ff0929152f329.png

具体来说,子空间微调方法主要集中于调整原始参数的子空间,涉及子空间的重构和扩展。研究者深入探讨了不同方法如何操作子空间,并从分解理论的角度阐明了每种方法的数学原理。此外,研究者分析了为什么这些方法会导致性能差异,提供了理解不同PEFT策略内在动态的全面理论基础。

他们基于此提出了两种新的PEFT方法,新方法在仅微调0.02%参数的情况下,性能接近于全面微调

研究者还介绍了一个有效的框架,在不引入额外训练参数的情况下,提升了LoRA等方法的性能。通过在三种不同模型上测试超过十种方法,广泛的实验验证了其理论的稳健性,同时展示了提出的方法和框架的有效性。

59fe3e972ddc4208d407229b23aacd52.png

来看论文细节。

子空间微调理论

考虑任何给定主干网络层的冻结权重矩阵f8a73cb9ed8bbd6b653ac64439981b9c.png,其中n≤m,并用权重矩阵908eaa096a2a5430debd6dfb4a05d9a4.png的性能1c507d49ed18302f3843c7051c5db29b.png来量化模型的性能,值越高表示性能越好。

假设存在最优权重矩阵da509db26175f033fc301f4adbe6082a.png ,且9cf621448f461ae759347494c0679cde.png对所有b239cdc935d87a26ea6ddfbf062364c9.png成立。PEFT的目标公式化为:

cd81e03426082aec236630e43b8c7f53.png

其中c9a2161dbd81411b5fc18f1a6d2ff8b4.png衡量两个矩阵之间的差异。函数840b1d368c159b61afb093f8a0702e74.png被视为增量调优,表示对矩阵cbd133247582581ebcaac9c725ad5b1e.png的每个元素的修改,但这种表征过于笼统。

从分解理论的角度看,调整矩阵涉及修改其对应的子空间,因此,所有PEFT方法可视为子空间微调。

如此,优化的目标是找到f64dece551d6edad2db2f3d4f73ef7f9.pngc9b8e2c9c8943f2e37226033e542eef4.png基所生成的子空间内的最大投影,然后将283474c1b3f7c68972ddf220797eeb70.png与其对齐。

有两种方法实现这一目标:通过调整d792b59bc454ee132d1f7ff42d8df3a8.png来逼近a94e910e165a48598c77cfeb87cbc8aa.png,或操作d6ccc3104486a851ac4e8d6c299709d4.png的子空间以接近或包含8e27d77894760254345040f817beaee4.png

研究者将函数4c55e42ace0078f81300593b3685bc87.png分配给两个主要角色:直接重构对应013a909ab94a79f7d9b3011b5b0e0bae.png的子空间,以更好地对齐d4e0796b1d41d49be6e3cd058ee7caeb.png,或引入一个新子空间并与原始子空间结合。这些过程数学表示为:

b74734131172946637a973df744a0b48.png

其中,b5f0212a6f6237ffb7e564c494179486.png概括了8c6c7bd877aea34081e70a9501e35090.png的子空间重构过程,338f0e660fd0caa7ff1d567f29e5f6da.png描述了子空间的联合。研究者将这些操作分别称为“子空间重构”和“子空间扩展”,并将现有方法分类为三类:

  1. 基于子空间重构的方法,将复杂空间分解为易理解的子空间,并调整这些派生子空间的基

  2. 基于子空间扩展的方法,引入一个新子空间,在新子空间和原始权重矩阵f7d55c404c49fc313cbd5df5f6632af1.png对应的子空间基所生成的空间内找到最优权重7a6324a655a5687d959c952ac5649d84.png的最大投影;

  3. 基于子空间组合的方法,同时采用上述子空间调整。

6e4bc21a19d822c03048a43cdb80b50d.png

子空间重构

基于先前概述的框架,子空间重构方法首先将dd6db6e74b684f4ff53114d06817ef5b.png的空间分割为可解释的子空间,然后细化这些子空间以提高模型效率。许多PEFT策略集中于直接重构与原始权重矩阵相关的子空间,著名例子包括SAM-PARSER、Diff Pruning、(IA)3、BitFit、Prefix-tuning和Prompt-tuning等。

研究者从奇异值分解(SVD)开始探索,原始权重矩阵d0bed21e4cd8f730813a854024433a9b.png被分解为正交子空间,涵盖了原始矩阵空间的全部。分解表示为93ab74a6d30a9ee6ecbbfde4b0543fe2.png,这种分解将25c8ef7ae9ccebf18b634ab649c553e1.png分成左奇异向量786ff13b81adb8dc7787ca60a9a4d8db.png6d8cf6cbb90a992064ddf38c08e475cb.png列空间的正交基)、奇异值23d6e8437b6ae741bb5625b766dbc1f3.png(调整维度和缩放)和右奇异向量a77ef939b009679c6787f8d47be55d49.png2221139a8aa56740adf03ab7da399d7c.png行空间的正交基)。通过调整分解获得的子空间,可以重构原始空间,分为三种模式:

  1. 奇异值调整:调整da59cafbb44ccffa63a9e35982df8f64.png中的奇异值,修改每个主成分的权重,而不影响子空间方向。

  2. 简单奇异向量调整:通过缩放生成的子空间来调整eda6b7b94db8c863ddc0de48e5a5a73a.png222777740df815c88857ea8690b671bd.png中的奇异向量,保留方向特性,同时调整幅度。

  3. 复杂奇异向量调整:对奇异向量进行更复杂的变换,重新定向或重塑子空间,全面调整矩阵结构。

96aee6c171659239cda0658e8eb31163.png

基于这一理论,研究者提出了两种新的微调方法:SSL(Scaling the Subspace of the Left singular vectors)和SSB(Scaling the Subspace of Both left and right singular vectors)。

从下图中可以看出,SSL最少只需要微调0.02%的参数,SSB最少只需要微调0.06%的参数,就能实现全量微调99%的性能

1ef4238ca0d62045371e8fb73f1fb39f.png

关于每种模式的具体操作、每种方法的具体内容、其背后的数学原理,以及研究者如何基于这一理论提出两种新方法的详细信息,请参阅原论文。

子空间扩展

基于扩展的方法引入新子空间,结合该新子空间和原始权重矩阵672797fb5c3275d9f0fd6b33c455854a.png的基生成扩展空间。

这些方法旨在找到最优权重5a58fdccabdfad440982e52d5955614d.png在新空间内的最接近投影,通过引入额外的权重矩阵来扩大原始子空间的基以覆盖更大维度区域。通常,这些方法的转换函数定义为500e055482de5d848ad719dff457643c.png,其中s代表缩放因子,7ad3c5721c47b995fdbc522d9f845249.png对应于新子空间,也称为附加项。

考虑权重矩阵7f0a1626a1fba4c377ec4296f738cae6.png,假设n≤m。理想情况下,有38c9f7935841e23a98a97d8d200dc516.png,即2896d183050d55560ac7e8e2a62109f3.pngac6f096823766a99e0f0018c40276c30.png占据相同的行和列空间,使它们定位在同一超平面内。

如果a4fbe1136f870af0da843f5980414446.png的秩为n,其列空间的维度等于n,生成bd193b6fac3be5674107ee75e1aadf1a.png子空间。若92881c77d9f8fa1a8214f6298ea6d48e.png的秩小于n,它只能在7ff843c67060417ccf695c01a2bb6891.png内生成一个子空间。假设1a8bc29e9e85add0339d7ebab3c4f9ab.pngcae5f50cc172fd1ec4536fcdef880145.png的列空间基可以生成整个7573f6d1b2a262d00a0cef0dab894fad.png空间,在最优情况下,c8ff146817f2225e52fdcdd19366251e.png的列基向量应补充1ff7bbced41e0e8221691d3f62d738bf.png的列基,意味着3454eb67bdfec1d6f6cef06949e22f23.png的列空间代表这些空间的直和。

一些研究表明,最优权重98d50681ecfe13c2c01031ebd0615d62.png会放大原始权重矩阵中某些特定任务的方向,这些方向对于预训练并不关键。此外,最优权重还会调整8eb8bf2d84f7c4af0611d372198b3b36.png的主要方向。这些见解表明b96194fc46571035cef410b9d8c49b70.png可能与5d97ee7f183177b55637832bf76925e7.png 的子空间共享大量共同基。因此,9decc47befefc3a361cd6323a538f83f.png可能只需考虑f455e4ff8f2044b22d740946f3c2f56c.png中缺少但b6cdb2b33162c3087448a25f78b1c1c5.png中存在的一小部分基,使edc0d7600625dbd64469bec029f7dce4.png成为低秩矩阵。

实证研究表明,预训练模型的全参数微调通常可重新参数化为在低维子空间内优化,表明最优权重在这个受限的低秩子空间内变化。fcdfa6dce095d89252a79d2513afda38.png的低秩特性突出了基于扩展方法的参数效率基础。

另一个关键方面是缩放因子s。基于扩展的方法目标是确定002e3d3cc7a9970dc7fa32f20e9e751f.png3053c533198eb26b1b6d341c751ac836.png3195ade47bae735e9bc82f735a9f057e.png形成的超平面内的最大投影,确保0385b015d6da8949649bf1d536b2d001.png尽可能与2206411bfb7f525737b875b7ecbab56f.png方向对齐。给定固定的31469f473a8e671578e42f0b85713fe5.png709dfd23d268fd4a7af8a747ecf69f6d.png,只有一个s值能使 \0c2816565efcd6e1bb8abdcdd845f71a.png 的方向与28e5e4f5dfcd8c55b99dc244292ccca4.png方向对齐,因此s值对性能的影响可能非常显著。

在参数高效微调中,有两大系列基于扩展的方法。第一系列是LoRA衍生,包括LoRA、AdaLoRA、TriLoRA、FLoRA、VeRA等。第二系列是适配器衍生,包括Adapter(H),Adapter(P),Parallel Adapter等。

在此基础之上,研究者提出了MPC框架,以进一步提升现有算法的性能。

从下图中可以看出,在不引入额外参数的情况下,MPC框架显著增强了各种PEFT方法的性能。

另外,MPC可以帮助PEFT方法实现更稳定的训练。与不使用MPC的方法相比,结合MPC的方法通常表现出更小的标准偏差。

b6b1397775864e8a6654154641bb10d4.png

关于这些方法的具体分析,LoRA和Adapter系列算法性能差异的原因,以及MPC框架的详细设计思路,请参阅原论文。

子空间组合

基于组合的方法同时执行子空间重构和扩展,结合了这两种方法的原理。

此外,对于某些方法,它们既可以分类为基于重构的方法,也可以分类为基于扩展的方法,研究者也将它们分类为基于组合的方法。研究者分析介绍几种代表性的基于组合的方法,如DoRA,Spectral Adapter和SVDiff等。

关于这些方法的具体细节请参阅原论文。

论文:https://arxiv.org/pdf/2407.05417
代码:https://github.com/Chongjie-Si/Subspace-Tuning

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值