Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models-CSDN博客

本文链接：https://blog.csdn.net/qq_41200212/article/details/131704738

Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

基本信息

博客创建者

柴进

作者

Ning Ding∗ , Yujia Qin∗ , Guang Yang, Fuchao Wei, Zonghan Yang, Yusheng Su, et al.

摘要

预训练语言模型(Pre-trained Language Models PLMs)已成为各种NLP任务的基础，同时，新兴研究的证据不断证明，更大的模型往往会产生更好的性能。研究人员也因此热衷于预训练微调范式，但微调大规模PLMs带来了高昂的适配成本。在这样的背景下，一种新的模型适配方案——参数高效(Parameter-efficient)方法逐渐受到关注。不同于标准微调，参数高效调优只对模型参数的一小部分进行微调，而其余部分保持不变，从而大大降低计算和存储成本，同时还有着可以媲美全参数微调的性能。本文认为这些方法本质上都是在一个增量(Delta Parameter)上进行调整，因此从形态学的角度提出了一个新的术语delta tuning来指代原来的“参数高效调优”。

本文首先正式描述了增量调优问题，回顾了最近的增量调优方法；然后给出了一个统一的分类标准，将现有的增量调优方法分为三组：增量式、指定式和重参数化方法；本文还分别从优化和最优控制两个角度提出了delta tuning的理论分析。此外，本文还对代表性方法进行了全面的实验对比，其中超过100个NLP任务的结果展示了不同方法的综合性能比较。实验结果涵盖了对delta tuning的性能表现、收敛表现、高效性表现、规模性表现、泛化表现、迁移性表现的研究分析。另外，本文还开发了一个开源工具包OpenDelta，使从业者能够高效、灵活地在PLMs上实现Delta Tuning。最后，本文还讨论了现实世界中delta tuning的应用。

问题定义

随着PLMs模型参数规模的增加，调整一个庞大模型的所有参数并为不同的任务保留单独的实例实际上是不可行的。如何有效地使大型模型适应特定的下游任务成为一个新的研究分支。

本文手动统计了最近5次NLP会议的1000篇已发表论文中PLMs的使用情况，结果显示只有0.5% ~ 4%的研究论文在实验中实际采用了大型PLMs，详见图1。这表明，研究者仅在中小规模模型上验证自己的方法，而习惯性地忽略大规模模型，这限制了NLP研究的发展。

图1. NLP会议论文PLMs的使用情况

因此，本文提出delta tuning来指代参数高效微调的方法，使得在微调大模型时能够降低计算和存储成本。

预备知识

Transformer

由于几乎所有主流PLMs都是基于Transformer (Vaswani et al .， 2017)模型开发的，而且delta tuning通常对Transformer模型进行操作，因此本文对Transformer模型进行了初步介绍。
在这里插入图片描述

图2. Transformer

预训练语言模型

预训练语言模型大多基于Transformer架构，它们通常采用不同的具体结构，例如，仅使用Encoder或Decoder，或两者都使用。本文简要回顾了与不同建模策略相关的一些流行的PLMs。
在这里插入图片描述

图3. 预训练模型的类别

掩码语言模型(Masked Language Modeling)

是一种基于Transformer编码器的双向模型，具有代表性的模型有BERT，RoBERTa等。基本思想是将输入的句子中的若干词用[MASK]遮盖起来，然后通过其他可见的词，来预测被遮盖的到底是哪些词。通常用于做自然语言理解任务。

自回归语言模型(Auto-regressive Language Modeling)

是一种仅基于Transformer解码器的语言模型，代表模型有GPT系列等。基本思想是通过上文语境来预测下一个token。通常用于做自然语言生成任务。

Sequence to Sequence Modeling

是一种建立在完整的Transformer架构之上的序列到序列模型，代表模型有T5，BART等。基本思想是在Encoder阶段用单个mask token随机替换任意长度的文本序列，然后在Decoder阶段让模型填充原始的tokens。作为双向编码器和自回归解码器的结合，序列到序列模型在语言理解和生成任务中都很强大。

方法

Delta Tuning

概念定义

给定一个预训练模型 $\Theta = \lbrace w_1,w_2,...,w_N \rbrace$ ，和训练数据 $D$ ，PLMs适配的目标是生成一个模型的参数为 ${\Theta}^{'} = \lbrace {w^{'}}_1,{w^{'}}_2,...,{w^{'}}_M \rbrace$ 。将 $\Delta \Theta = \Theta^{'} - \Theta$ 定义为在原始模型 $\Theta$ 之上的操作。

在传统的全参数微调中，有 $N = M$ ，其中 $\Delta \Theta = \bigtriangledown f_{\Theta}(D)$ ，是 $\Theta$ 中所有参数相对于训练数据的更新值，并且有 $|\Delta\Theta| = |\Theta|$ （这里|·|表示参数个数）。

在delta tuning中， $\Delta\Theta$ 则是指修改少量参数，有 $|\Delta\Theta| \ll |\Theta|$ 。

根据对增量参数的操作，本文将增量调优方法分为三类：增量式方法、指定式方法、重参数化方法。
在这里插入图片描述

图4. delta tuning的类别

增量式方法(Addition-based)

增量式方法引入了原始模型或过程中不存在的额外可训练的神经模块或参数，并且通过只微调这一小部分参数来达到模型高效适配的效果。常见的增量式方法包括Adapter-Tuning，Prefix Tuning，Prompt Tuning等。
在这里插入图片描述

用数学表示定义如下：
在这种方法下，有 $\geq N$ ， $\Delta\Theta = \lbrace w_N+1,w_N+2,...,w_M \rbrace$ 。

Adapters-based Tuning

基于适配器的方法将小规模神经模块(Adapter)注入Transformer层，并且仅调优这些适配器以适应模型。在每个Transformer块中，分别在多头自注意模块和前馈神经层之后插入Adapter。下图显示了适配器的体系结构，以及它在Transformer中的应用：

在这里插入图片描述

图5. Adapter的系统结构及在Transformer中的应用

Adapter包含一个向下投影和一个向上投影。对于一个 $d$ 维的输入特征 $h$ ，通过一个参数矩阵 $W_d \in R^{d\times r}$ 向下投影成一个更小的 $r$ 维空间(这里 $\ll d$ )；然后经过一个非线性函数 $f (\cdot)$ ；再通过向上投影 $W_u$ 将 $r$ 维表示映射回 $d$ 维空间；最后再加上残差。整个过程可以用以下公式表示：
在这里插入图片描述该方法将每个Transformer层的可调参数减少到 $2\times(2dr(投影矩阵)+d(残差连接)+r(偏置项))$ ，实际应用上，该方法用到了0.5%~8%的参数参与调优。

总结：适配器是轻量级的附加神经模块，可以按照特定于任务的风格进行训练。在计算效率方面，适配器的训练可能比普通的微调快60%，并且具有更好的鲁棒性，在few-shot和跨语言场景下比传统微调表现得更好(He等人，2021)，并且在对抗性攻击下更稳健。

Prompt-based Tuning

基于提示的方法用附加上下文包装原始输入，提示学习作为一种通过模仿下游任务中的预训练目标来刺激预训练语言模型的策略，在各种NLP任务中取得了良好的表现。

Prefix Tuning为每个Transformer层的输入和隐藏状态添加可训练的连续tokens(称为前缀)。每个前缀都从新初始化的可训练参数矩阵 $P$ 中提取。

在这里插入图片描述

图6. Prefix Tuning

Prompt tuning提出了一种更简化的策略，仅向输入层添加软提示(soft prompts)。同样的，这里新引入的提示是一个额外的参数矩阵。在训练过程中，采用梯度下降法更新软提示参数，同时保持模型参数不变。

总结：尽管基于提示的方法在适应大型预训练模型方面表现出很好的前景，但提示调优很难优化。并且在训练期间，软提示方法的收敛速度明显慢于全参数微调和其他增量调优方法。

指定式方法(Specification-based)

指定式方法不改变模型的内部结构，仅优化少量的内部参数，并保持大多数参数不变。
在这里插入图片描述

用数学表示定义如下：
将可训练参数集合表示为 $W$ ，此时更新的参数表示为： $\Delta\Theta = \lbrace \Delta w_1,\Delta w_2,...,\Delta w_N \rbrace$ ，当 $w_i \in W$ （说明这个参数属于可训练参数）， $\Delta w_i$ 就代表从 $w_i$ 到 ${w_i}^{'}$ 的增量值，否则， $\Delta w_i = 0$ 。

启发式(Heuristic Specification)

这种方法下直接指定需要优化的部分参数。其中具有代表性的方法有BitFit (Zaken et al .， 2021)，仅优化模型内部的 偏置(bias) 并冻结其他参数，也能在几个基准测试中再现95%以上的性能。

学习式(Learn the Specification)

通过“学习”来指定需要优化的部分参数。具有代表性的方法有diff pruning (Guo et al., 2021)，将微调后的模型参数 $\Theta ^ {'}$ 重新参数化为预训练参数 $\Theta$ 与差分向量 $\Delta \Theta$ 的总和(即： $\Theta ^ {'} = \Theta + \Delta \Theta$ )，然后找寻最稀疏的差分向量 $\Delta \Theta$ 。不过该方法在学习阶段引入了需要优化的新参数，会比全参数微调占用更多的GPU内存。
另一种掩蔽方法(The masking method Zhao et al .， 2020)学习PLMs的选择性掩码，仅更新特定任务的关键权重。

重参数化方法(Reparameterization-based)

基于重新参数化的方法通过转换，将现有参数重新参数化为参数有效的形式。Delta tuning的这一分支通常是由一个假设所驱动，即PLM对大多数下游任务的适应本质上是低秩的，因此可以以参数有效的方式完成。
在这里插入图片描述

用数学表示定义如下：

将要重参数化的参数集合表示为 $W$ ，假设每个 $w_i \in W$ (需要进行重参数化的参数)都用新参数 $R(w_i) = \lbrace u_1,u_2, ..., u_{N_i} \rbrace$ 来表示，那么更新的参数就可表示为： $\Delta \Theta = (\Theta \setminus W) \cup U$ ( $\setminus$ 为集合中的减法)，其中 $\lbrace u_j|w_i \in W, u_j \in R(w_i) \rbrace$ 。

针对这一方法有以下三项工作：

Intrinsic Dimensions of PLM Adaptation PLM适应的内在维度

经验表明，预训练模型的全参数微调过程可以被重新参数化为低维子空间内的优化，即：可以通过仅微调子空间内的参数就达到令人满意的性能，并且可以减少计算量和内存成本。

Intrinsic Rank of Weight Differences 权重差的内在秩

LoRA (Hu等人，2021a)假设模型调优过程中权重的变化具有较低的内在秩。基于这一假设，他们提出对自注意力模块中原始权矩阵的变化进行低秩分解优化。
在这里插入图片描述

Intrinsic Space of Multiple Adaptations 多重适应的内在空间

Qin等人(2021b)提出了一个更强的假设，即对多个任务的适应可以重新参数化为同一低维内在子空间内的优化。在这种假设下，仅仅调整子空间的参数就可以同时在 100 多个 NLP 任务上达到令人满意的效果。

Delta Tuning的理论分析

优化角度

从优化角度来说，Delta tuning是在一个解空间、函数空间，寻找低维表示的一个过程。

本文分析 Delta Tuning 的效果并讨论了在低维假设下的一些 Delta Tuning 方法的设计。使用 Delta Tuning 后，目标函数及其所依赖的参数都可能会发生改变。

对新的目标函数，仅优化其与 Delta Tuning 有关的参数，如果初值足够好，在一定假设意义下模型的性能不会有大的损害。但是为了确保 Delta Tuning 的有效性，有必要去开发问题的结构来设计这个新的目标函数。一般而言，在实践中有两种思路被证明是有用的：

在特定的低维的子空间内寻找解向量；
在特定的低维的函数空间内近似目标函数。

最优控制角度

参考定理：神经网络的反向传播等价于在最优控制中去寻找最优控制器的过程。本文指出delta tuning可以看作是为特定下游任务寻求 PLMs 的最佳控制器的过程，并对各种delta tuning方法推导出寻找最优控制器的过程。

实验

本文对delta tuning的性能表现、收敛表现、高效性表现、规模性表现、泛化表现、迁移性表现进行了研究分析。

实验设置

本文主要评估了传统全参数微调(FT)和四种代表性的增量调优方法，包括：提示调优(PT)，前缀调优(PF)， LoRA (LR)和适配器(AP)。

为了涵盖广泛而多样的NLP任务，本文从Huggingface数据集中随机选择了100多个具有代表性的任务。所选任务包括文本分类(如：情感分析和自然语言推理)、问题回答(如：机器阅读理解和选择题回答)、条件生成(如：摘要和对话)等。

本文选用 $T5_{BASE}$ (rafael等人，2019)作为不同调优方法的主要评估PLMs主干，我们还报告了 $T5_{LARGE}$ 的PT性能(rafael等人，2019)。

同时，各delta tuning方法的设置如下：

PF：使用5个前缀tokens;

PT：在输入向量中加入100个可调soft tokens;

LR：将多头注意力模块中的所有查询矩阵q和值矩阵v重新参数化为低秩分解，并设置秩为8;

AP：在每个Transformer层的多头注意力模块和前馈网络中同时插入适配器模块，将瓶颈维度设置为64，并选择SiLU (Elfwing et al, 2018)作为激活函数。

实验结果及分析

性能分析

在这里插入图片描述

图7. 各delta tuning方法性能表现

(1) 一般来说，由于不同的delta tuning方法显著减少了可调参数的数量，因此在大多数情况下，它们在性能上都无法与FT相媲美。但参数高效适配仍具有大规模应用的潜力。

(2) 平均结果显示，所有方法的性能排名为FT > LR > AP > PF > PT。另外，在小型PLMs上，更多的可调参数并不一定导致更好的性能，增量调优结构的设计可能发挥更大的作用。

(3) PT作为这些方法中最容易实现的(即不修改模型的内部结构)，在 $T5_{BASE}$ 上进行实验时，在大多数情况下远远落后于其他增量调优方法。但当模型尺寸扩大到 $T5_{LARGE}$ 时，可以观察到更好的PT性能。

收敛分析

本文通过可视化不同的增量调优方法(LR、AP、PF)和全参数微调(FT)在不同训练步骤下的性能，来比较它们的收敛速度。
在这里插入图片描述

图8. 在T5BASE模型中FT,LR,AP,PF调优方法的性能表现

(1) 总的来说，这些调优方法的收敛速率依次为：FT > AP≈LR > PF。(PT在收敛速度和性能上都远远落后于其他调优方法，因此本文没有在图中可视化它)

(2) 对于每种delta tuning方法，在一个合理的宽范围内，性能和收敛对可调参数的数量不敏感，但对方法的结构更敏感。比如，PF具有所有delta tuning方法中最多的可调参数(7.93%)，但它仍然面临一些收敛困难。

(3) 随着PLMs规模的扩大，delta tuning的收敛速度也在加快。

效率分析

Delta tuning可以减少梯度计算，从而节省GPU内存。本文对比了不同delta tuning方法和不同PLMs规模的微调所消耗的GPU内存。我们选择T5模型的 $T5_{BASE}、T5_{LARGE}、T5_{XL}$ 三种规模，测试不同批处理规模下的GPU内存峰值。
在这里插入图片描述

图9. 各delta tuning方法所消耗的GPU内存 (1) 在小批量(例如1,8)下，delta tuning最多可以节省3/4的GPU内存；而在大批量(例如64)下，增量调优至少可以节省1/3的GPU内存。体现出delta tuning在计算资源上的高效。

Delta tuning的可组合性

考虑到不同的delta tuning方法是相互兼容的，这意味着它们可以一起应用在同一个PLM上，因此本文研究了这种组合是否会带来额外的好处。具体来说，本文评估了同时组合和顺序组合。并且选用了三种具有代表性的delta tuning方法，包括prompt tuning, BitFit, and adapter。

同时组合(simultaneous combination)

使用 $RoBERTa_{LARGE}$ (Liu et al .， 2019)和 $T5_{BASE}$ 在8个GLUE任务上进行实验。本文在full-data和few-shot场景下均进行实验，并且探索了人工输入模版对于性能的影响。从下表可以得出以下结论：

对于 $RoBERTa_{LARGE}$

(1) 在full-data设置和few-shot设置下，无论是否存在手动模板，在组合中引入Adapter几乎总是有利于GLUE的平均性能；

(2) 在组合中引入prompt tuning通常会损害平均性能，表明提示调优可能与其他两种delta tuning方法不兼容；

(3) 在组合中引入BitFit一般会提高平均性能；

(4) 引入手动模板可以显著提高zero-shot的性能(从23.7到43.4)。在few-shot设置下，手动模板也能明显提高平均性能。
在这里插入图片描述

对于 $T5_{BASE}$

(1) 无论是否存在手动模板，在组合中引入prompt tuning总是会损害性能，这表明prompt tuning可能与 $T5_{BASE}$ 的其他两种delta tuning方法也不兼容；

(2) 在组合中引入BitFit总能达到平均性能；

(3) 在存在手动模板的情况下，Adapter并不一定能提高性能，但在不存在手动模板的情况下，Adapter仍能带来好处；

(4)在输入文本中插入手动模板总是会提高平均性能。
在这里插入图片描述

顺序组合( sequential combination)

除了同时组合之外，本文还进一步研究了上述三种的delta tuning方法按照一定顺序引入时的兼容性。具体来说，将整个微调分为了3 个阶段。在每个阶段，研究者训练一个单独的delta tuning方法；在接下来的阶段中，他们固定前面阶段训练得到的delta tuning参数不动，只优化新引入的 delta tuning参数。

本文在SST-2 (Socher et al, 2013)上使用/不使用手动模板对 $RoBERTa_{LARGE}$ 进行了实验。

在这里插入图片描述

图10. 各顺序组合方式的性能表现

(1) 在某些情况下，可以通过不断引入新的delta tuning方法，整体性能能够不断提高，从而验证了顺序组合的优势；

(2) 在不同的设置下，不存在固定最优的组合顺序。最优的组合方式可能会因为不同的下游任务、使用的模型架构等因素而变化。

泛化差距分析

各种微调方法对训练数据的记忆能力（Memorization）和泛化能力（Generalization）不尽相同。为此，本文报告了 $RoBERTa_{LARGE}$ 在全量数据设置下的泛化差距（训练集效果 - 开发集效果），结果如下表所示：

在这里插入图片描述
(1) 单个delta tuning方法的泛化差距总是小于Fine-tuning，这意味着过度参数化可能有助于更好地记忆（过拟合）训练样本。在所有delta tuning 方法中，Prompt Tuning 往往具有最小的泛化差距。

(2) 一般来说，组合几个delta tuning方法会增大泛化差距，甚至达到与全 Fine-tuning 相当的程度。这表明，记住训练集（Memorization）可能不需要微调过多；

(3) 使用人工模板一般不会影响泛化差距。

总结：不同的delta tuning方法对PLMs的优化功能各不相同，将它们结合起来通常有利于提升下游性能。然而，不同的PLMs可能倾向于不同的增量调优组合，并且在不同的设置下，delta tuning的最佳组合可能会有很大差异。

模型规模增长的性能变化

随着使用的 PLM 的模型规模增长，Prompt Tuning 的性能会越来越强，甚至可以达到和全参数 Fine-tuning 微调相匹敌的水平。因此，本文探讨其他delta tuning方法是否也表现出这种规模的力量。

本文对MNLI (Williams et al, 2018)、QNLI和SST-2的任务进行了实验，并选择了三个尺寸不断增加的PLMs (T5SMALL、T5BASE、T5XXL)，并评估了六种代表性的delta tuning方法(Adapter、LoRA、prefix tuning、prompt tuning、最后一层调优和选择性模块调优)的性能。

在这里插入图片描述

图11. 随模型规模增长的性能变化

(1) 随着PLMs模型规模的增大，各delta tuning方法的性能和收敛性均有显著提高；本文猜测这种现象的存在是因为，较大的 PLMs 通常具有较小的内在维度（Intrinsic Dimension），因此，仅调整很少的参数即可获得足够强的表示能力，从而在下游任务中实现非平凡的性能。

(2) 与其他 delta tuning方法相比，Prompt Tuning 往往对小规模 PLM（T5-small 和 T5-base）性能比较差。

(3) Last Layer Tuning (只微调 T5 encoder 的最后一层)和Selective Module Tuning(随机选择 T5 模型中的部分模块进行微调)这两种方法都表现出优异的效果。

任务级的可移植性分析

基于已经被证明了的：prompt tuning具有跨任务可转移性，本文验证了跨任务可转移性是否也存在于各种delta tuning方法中。具体而言，本文研究了四种delta tuning方法(提示调优、前缀调优、适配器和LoRA)和5种不同类型的12个任务(情感分析、自然语言推理、意译识别、问题回答、摘要)，将训练好的增量参数转移到未知的目标任务中。
在这里插入图片描述

在这里插入图片描述

图12. delta tuning可移植性分析

(1) 对于同一类别的任务，在它们之间传递调优参数的效果一般较好;

(2) 对于不同类型的任务，在任务之间传递delta参数的效果普遍较差;

(3) 从文本生成任务(如问答和摘要)中转移调优参数可以在情感分析上取得非凡的性能，这表明文本生成任务可能是一个更复杂的任务，其中包含解决情感分析任务所需的知识。

这些结果也验证了之前引入的各种任务之间的一些公共子空间，并表明通过知识转移将训练好的delta参数用于类似任务是有希望的。

应用

快速训练与存储空间节省

尽管delta tuning的收敛速度可能比传统的全参数微调慢，但随着反向传播期间可微调参数的计算量显著减少，delta tuning 的训练速度也得到了显著提升。

另外，由于轻量的特性，训练得到的 Delta 参数还可以节省存储空间，从而方便在从业者之间共享，促进知识迁移。

多任务学习

Delta Tuning 具有出色的多任务学习能力，同时保持相对较低的额外存储。另外，由于 delta tuning 仅调整最小参数，因此它可能是减轻灾难性遗忘问题的潜在解决方案。

中心化模型服务与并行计算

超大型 PLMs 通常作为服务发布，即用户通过与模型提供者公布的 API 交互来使用大模型，这当中通信成本是很高的。

由于delta tuning轻量级的特性，服务提供者可以在消耗更少的计算和存储空间的同时，支持训练多个用户所需的下游任务。此外，一些 Delta Tuning 算法本质上是可并行的（例如 Prompt Tuning 和 Prefix-Tuning 等），因此 Delta Tuning 可以允许在同一个 batch 中并行训练 / 测试来自多个用户的样本（In-batch Parallel Computing）。

总结

这篇文章给出了一个全新的术语——delta tuning，对以往研究的一系列参数高效微调方法进行了分类与定义，并且通过实验分析了delta tuning方法的性能表现、收敛表现、高效性表现、泛化表现、迁移性表现，以及随模型规模增长的性能表现。对今后将大模型适配到特定下游任务这一过程，给出了更加高效的实现方法。

BibTex

@misc{ding2022delta,
      title={Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models}, 
      author={Ning Ding and Yujia Qin and Guang Yang and Fuchao Wei and Zonghan Yang and Yusheng Su and Shengding Hu and Yulin Chen and Chi-Min Chan and Weize Chen and Jing Yi and Weilin Zhao and Xiaozhi Wang and Zhiyuan Liu and Hai-Tao Zheng and Jianfei Chen and Yang Liu and Jie Tang and Juanzi Li and Maosong Sun},
      year={2022},
      eprint={2203.06904},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}