论文《AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning》浅析

荔蔷醉美

已于 2024-07-18 23:29:01 修改

阅读量383

点赞数 12

文章标签：深度学习人工智能机器学习

于 2024-07-18 23:24:01 首次发布

本文链接：https://blog.csdn.net/sinat_25045701/article/details/140534546

版权

在大模型微调的理论中，AdaLoRA方法是一个绕不开的部分。

这篇论文主要提出了一种新的自适应预算分配方法AdaLoRA，用于提高参数高效的微调性能。AdaLoRA方法有效地解决了现有参数高效微调方法在预算分配上的不足，提高了在资源有限情况下的模型性能，为NLP领域的实际应用提供了新的思路和技术支持。

论文从研究背景，AdaLoRA方法，实验结果与对比分析等多个角度阐述了该方法的优势。

研究背景与动机：
现状：预训练语言模型（PLMs）在NLP任务中表现出色，但全参数微调在大量下游任务中变得不可行。
挑战：现有方法如LoRA等通过低秩增量更新预训练权重，但均匀分配预算，忽略了不同权重参数的重要性。
动机：提出AdaLoRA以根据重要性分数自适应地分配参数预算。

AdaLoRA方法：
方法概述：AdaLoRA通过奇异值分解（SVD）参数化增量更新，动态调整增量矩阵的秩以控制预算。
SVD参数化：增量更新∆被参数化为∆=PΛQ，其中Λ包含奇异值，P和Q为正交矩阵。
重要性评分：提出一种新颖的重要性度量，基于每个奇异值及其对应奇异向量的贡献来评分。
预算调度器：采用全局预算调度器，从略高于最终预算的初始值开始，逐渐减少到目标值。

实验与结果：
数据集与模型：在多个NLP任务（如GLUE、SQuAD、XSum等）上评估DeBERTaV3-base和BART-large等模型。
性能表现：AdaLoRA在低预算设置下表现尤为突出，如使用不到0.1%的全参数微调的可训练参数，在SQuAD2.0数据集上实现1.2%的F1提升。

对比分析：与LoRA等基线方法相比，AdaLoRA显示出显著的改进。

优势与贡献：
优势：相比传统的SVD方法，AdaLoRA避免了昂贵的SVD计算，同时保留了重要信息的恢复能力。
贡献：提出了一种新的自适应预算分配方法，提高了参数高效微调的性能，特别是在资源受限的场景下。

未来工作：
探索方向：未来可以进一步优化重要性评分和预算调度策略，以及将AdaLoRA应用于更多类型的预训练模型和任务。

该论文对AI大模型微调的从业者带来一些启发，也可以作为微调的入门论文。