大模型参数高效微调技术原理综述（六）-Adapter Tuning

程序员.小富

已于 2024-09-16 20:27:05 修改

阅读量1.4k

点赞数 17

分类专栏：大模型文章标签： prompt

于 2024-09-16 20:17:54 首次发布

本文链接：https://blog.csdn.net/qq_32907491/article/details/142303253

版权

大模型专栏收录该内容

44 篇文章

订阅专栏

Adapter Tuning

适配器微调（Adapter tuning）通过引入适配器模块来进行特定任务的优化。适配器模块是一组轻量级的参数，被添加到模型的中间层，以保护原有预训练模型的参数。这种方法的目标是在不改变整体模型结构的情况下，通过调整适配器模块的参数来适应新任务。

适配器微调相对于全量微调有两个主要优势。首先，它减少了参数调整的数量，同时还能保持与全量微调相当的模型性能。在GLUE基准测试中，适配器微调几乎与完全微调的BERT性能相当，但只使用了3%的任务特定参数 (Neil Houlsby, 2019)。这使得在资源有限的情况下更容易进行模型调整。其次，适配器模块允许在特定任务上保留更多的预训练知识，因为主要的预训练参数仍然受到保护，不会被大幅度改变。

适配器微调的步骤包括在预训练模型的中间层添加适配器模块，并对其权重进行恒等初始化，这样训练开始时模型性能和原始模型非常接近；然后在目标任务上进行微调，调整适配器模块的权重。

如图 1所示，适配器模块一般添加在Transformer模块中的两个全连接层的后面。每个适配器模块的结构包括输入层、输出层、下投影前馈层、上投影前馈层、非线性层、和从输入到输出的跳接。在训练过程中，一般只调整图 4中绿色的部分，包括适配器的下投影前馈层、上投影前馈层、非线性层以及Transformer模块中的两个归一层的参数。适配器模块的工作原理是先把输入的d维特征向量通过下投影前馈层（d×r维矩阵）投影为r维向量（r<<d）,应用非线性层，再通过上投影前馈层（r×d维矩阵）投影回一个d维向量。

图 1 适配器模块的结构及其与Transformer模块的整合

如图 2所示， (Neil Houlsby, 2019)给出了Adaptor tuning与传统迁移学习（调整靠近输出的几层）在调整同等数量的参数的情况下，模型性能的差别。左边的图表是微调BERT-large基础模型在GLUE数据集下的性能。X轴是调整的参数个数，Y轴是和全参数微调对比的准确度。右边的图表是微调BERT-base基础模型来处理其他一些文本分类任务（包括20 newsgroups、Crowdflower airline、Customer complaint database等）。X轴是调整的参数个数，Y轴是和全参数微调对比的准确度（所有这些文本分类任务的平均准确度）。由此可见，Adaptor tuning与传统迁移学习相比，只需要调整1/100甚至1/1000的参数就能得到相当的性能。

图 2 适配器微调与传统迁移学习的性能比较

开源项目Adapters（https://github.com/adapter-hub/adapters）已经实现了开箱即用的适配器微调实现，我们只需要稍加配置，就可以训练和加载相应的Adapter模型。另外，Adapters还可以和HuggingFace的Transformer包无缝整合，可以直接加载HuggingFace上的模型进行Adapter微调。

每当出现新的下游任务，通过添加Adapter模块来产生一个易于扩展的下游模型，从而避免全量微调与灾难性遗忘的问题。

image.png

Adapter结构具体细节：

每个 Adapter 模块主要由两个前馈（Feedforward）子层组成，第一个前馈子层（down-project）将Transformer块的输出作为输入，将原始输入维度d（高维特征）投影到m（低维特征），通过控制m的大小来限制Adapter模块的参数量，通常情况下，m<<d。然后，中间通过一个非线形层。在输出阶段，通过第二个前馈子层（up-project）还原输入维度，将m（低维特征）重新映射回d（原来的高维特征），作为Adapter模块的输出。同时，通过一个skip connection来将Adapter的输入重新加到最终的输出中去，这样可以保证，即便 Adapter 一开始的参数初始化接近0，Adapter也由于skip connection的设置而接近于一个恒等映射，从而确保训练的有效性。

image.png

通过实验发现，只训练少量参数的Adapter方法的效果可以媲美全量微调，这也验证了Adapter是一种高效的参数训练方法，可以快速将语言模型的能力迁移到下游任务中去。同时，可以看到，Adapter 最佳的中间层特征维度m视数据集的大小而异，如：MINI数据集为256，最小的RTE数据集为8。如果始终将维度限制在64，将导致平均准确率略微下降。

image.png

总之，Adapter通过引入0.5%～5%的模型参数可以达到不落后全量微调模型1%的性能。

AdapterFusion

背景

为了整合来自多个任务的知识，传统的两个方法是按一定顺序微调（Sequential fine-tuning）或者多任务学习（multi-task learning）。前者的一大问题是需要先验知识来确定顺序，且模型容易遗忘之前任务学到的知识，后者的问题是不同的任务会互相影响，也难以平衡数据集大小差距很大的任务。

而之前的工作，Adapter Tuning的一个优势就是不用更新预训练模型的参数，而是插入比较少的新的参数就可以很好地学会一个任务。此时，Adapter 的参数某种程度上就表达了解决这个任务需要的知识。

作者受此启发，如果想要把来自多个任务的知识结合起来，是否可以考虑把多个任务的Adapter的参数结合起来？基于此，作者提出了 AdapterFusion，这是一种新的两阶段学习算法，可以利用来自多个任务的知识。

技术原理

Adapter Fusion（论文：AdapterFusion:Non-Destructive Task Composition for Transfer Learning），一种融合多任务信息的Adapter的变体，在 Adapter 的基础上进行优化，通过将学习过程分为两阶段来提升下游任务表现。

知识提取阶段：在不同任务下引入各自的Adapter模块，用于学习特定任务的信息。
知识组合阶段：将预训练模型参数与特定于任务的Adapter参数固定，引入新参数（AdapterFusion）来学习组合多个Adapter中的知识，以提高模型在目标任务中的表现。

image.png

对于第一阶段，有两种训练方式，分别如下：

Single-Task Adapters(ST-A)：对于N个任务，模型都分别独立进行优化，各个任务之间互不干扰，互不影响。
Multi-Task Adapters(MT-A)：N个任务通过多任务学习的方式，进行联合优化。

对于第二阶段，为了避免通过引入特定任务参数而带来的灾难性遗忘问题，AdapterFusion提出了一个共享多任务信息的结构。针对特定任务m，AdapterFusion联合了第一阶段训练得到的N个Adapter信息。固定语言模型的参数跟N个Adapter的参数，新引入AdapterFusion的参数，目标函数也是学习针对特定任务m的AdapterFusion的参数。

AdapterFusion结构：

AdapterFusion具体结构就是一个Attention，它的参数包括query，key, value的矩阵参数，在transformer的每一层都存在，它的query是transformer每个子模块的输出结果，它的key跟value则是N个任务的adapter的输出。通过AdapterFusion，模型可以为不同的任务对应的adapter分配不同的权重，聚合N个任务的信息，从而为特定任务输出更合适的结果。

image.png

通过对全量微调、Adapter Tuning、AdapterFusion这三种方法在各个数据集上进行对比实验可以看出，AdapterFusion在大多数情况下性能优于全模型微调和Adapter Tuning，特别在MRPC与RTE数据集中，性能显著优于另外两种方法。

同时，还可以看到第一阶段采用ST-A+第二阶段AdapterFusion是最有效的方法，在多个数据集上的平均效果达到了最佳。而第一阶段采用MT-A+第二阶段AdapterFusion没有取得最佳的效果，在于第一阶段其实已经联合了多个任务的信息了，所以AdapterFusion的作用没有那么明显，同时MT-A这种多任务联合训练的方式需要投入较多的成本，并不算一种高效的参数更新方式。另外，ST-A的方法在多个任务上都有提升，但是MT-A的方法则不然，这也表明了MT-A虽然可以学习到一个通用的表征，但是由于不同任务的差异性，很难保证在所有任务上都取得最优的效果。