仅微调0.02%参数，性能接近全量微调！上交大推出高效微调统一新范式

QbitAl

于 2024-07-20 12:48:23 发布

阅读量68

点赞数

文章标签：人工智能机器学习深度学习算法

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247739750&idx=2&sn=f580c34cdebd667f12b291d572b6d037&chksm=e95ced814f7e639bad61086da1c99d25bc18febe3156736c9065e9ee5406f03cd32325206913&scene=126&sessionid=0

版权

ChouJay 投稿
量子位 | 公众号 QbitAI

Scaling Laws当道，但随着大模型应用的发展，基础模型不断扩大的参数也成了令开发者们头疼的问题。

为了减轻训练负担，Adapter、Prompt-Tuning以及LoRA等高效微调（Parameter Efficient Fine-Tuning, PEFT）算法越来越受到大家伙的青睐。

那么，问题来了——

尽管近年来高效微调领域发展迅速，涌现了多种方法，但不同PEFT方法背后的数学基础几乎没有得到深入研究。

此外，不同PEFT方法之间的性能差异及其原因尚未系统地探讨。这种理论深度的缺乏限制了研究者对这些方法潜在优势和局限性的理解，阻碍了它们在实际应用中的优化和创新。

为了解决这一问题，来自上海交通大学的研究者们在对各种PEFT方法进行全面数学分析后，提出了一种新的框架——子空间微调，旨在将所有已知的PEFT方法统一在一个理论下，

具体来说，子空间微调方法主要集中于调整原始参数的子空间，涉及子空间的重构和扩展。研究者深入探讨了不同方法如何操作子空间，并从分解理论的角度阐明了每种方法的数学原理。此外，研究者分析了为什么这些方法会导致性能差异，提供了理解不同PEFT策略内在动态的全面理论基础。

他们基于此提出了两种新的PEFT方法，新方法在仅微调0.02%参数的情况下，性能接近于全面微调。

研究者还介绍了一个有效的框架，在不引入额外训练参数的情况下，提升了LoRA等方法的性能。通过在三种不同模型上测试超过十种方法，广泛的实验验证了其理论的稳健性，同时展示了提出的方法和框架的有效性。

来看论文细节。

子空间微调理论

考虑任何给定主干网络层的冻结权重矩阵，其中n≤m，并用权重矩阵的性能来量化模型的性能，值越高表示性能越好。

假设存在最优权重矩阵，且对所有成立。PEFT的目标公式化为：

其中衡量两个矩阵之间的差异。函数被视为增量调优，表示对矩阵的每个元素的修改，但这种表征过于笼统。

从分解理论的角度看，调整矩阵涉及修改其对应的子空间，因此，所有PEFT方法可视为子空间微调。

如此，优化的目标是找到在基所生成的子空间内的最大投影，然后将与其对齐。

有两种方法实现这一目标：通过调整来逼近，或操作的子空间以接近或包含。

研究者将函数分配给两个主要角色：直接重构对应的子空间，以更好地对齐，或引入一个新子空间并与原始子空间结合。这些过程数学表示为：

其中，概括了的子空间重构过程，描述了子空间的联合。研究者将这些操作分别称为“子空间重构”和“子空间扩展”，并将现有方法分类为三类：

基于子空间重构的方法，将复杂空间分解为易理解的子空间，并调整这些派生子空间的基
基于子空间扩展的方法，引入一个新子空间，在新子空间和原始权重矩阵对应的子空间基所生成的空间内找到最优权重的最大投影；
基于子空间组合的方法，同时采用上述子空间调整。

子空间重构

基于先前概述的框架，子空间重构方法首先将的空间分割为可解释的子空间，然后细化这些子空间以提高模型效率。许多PEFT策略集中于直接重构与原始权重矩阵相关的子空间，著名例子包括SAM-PARSER、Diff Pruning、(IA)3、BitFit、Prefix-tuning和Prompt-tuning等。