模型微调方法Adapter

ballball~~

已于 2024-10-15 22:17:34 修改

阅读量4.1k

点赞数 35

分类专栏：大模型文章标签：人工智能算法 python

于 2024-10-15 00:20:15 首次发布

本文链接：https://blog.csdn.net/m0_66890670/article/details/142917003

版权

简介：个人学习分享，如有错误，欢迎批评指正。

Adapter是一种高效的微调方法，旨在在保持大型预训练模型（如BERT、GPT等）核心参数不变的情况下，通过添加小型可训练模块（称为“Adapter层”）来适应特定下游任务。这种方法在参数效率和灵活性方面具有显著优势，尤其适用于资源受限的环境或需要同时适应多个任务的场景。

背景与动机
随着预训练语言模型规模的不断扩大，直接对整个模型进行微调变得计算资源消耗巨大，且不易于在多任务或多领域中复用。传统微调方法需要为每个下游任务保存一套完整的模型参数，这在存储和管理上带来了挑战。为了解决这一问题，Adapter方法应运而生，通过仅添加少量参数来实现高效的任务适应。

在深度学习中，特别是自然语言处理（NLP）领域，预训练模型如BERT、GPT等因其强大的表示能力被广泛应用。然而，随着模型规模的增大，直接对整个模型进行微调（即调整所有参数以适应特定任务）变得既计算资源消耗巨大，又不利于多任务或多领域的模型复用。

Adapter方法的核心理念是通过在预训练模型中插入小型、可训练的模块（即Adapter层），在保持原有预训练参数不变的情况下，实现对特定任务的适应。这种方法极大地提高了参数效率，减少了存储需求，并且支持多任务学习。

在这里插入图片描述

一个典型的Adapter模块通常由以下几个部分组成：

下采样（Down-Projection）：将输入特征从高维空间映射到低维空间，以减少参数量和计算复杂度。通常使用一个全连接层实现，参数矩阵维度为 $d_{model} \times d_{bottleneck}$ 。
非线性激活函数（Non-linear Activation）：常用的激活函数包括ReLU、GELU等，用于增加模型的非线性表达能力。
上采样（Up-Projection）：将低维特征映射回高维空间，与输入特征进行融合。通常也是一个全连接层，参数矩阵维度为 $d_{bottleneck} \times d_{model}$ 。

设输入为 $\in \mathbb{R}^{d_{model}}$ ，则Adapter模块的输出可以表示为：

$W_{up} \cdot \sigma(W_{down} \cdot x)$

其中：

为了更好地理解Adapter在Transformer架构中的集成，以下以BERT为例进行说明：

Transformer层的组成：
- 每个Transformer层包括多头自注意力机制和前馈神经网络（Feed-Forward Network）。
Adapter的插入位置：
- Adapter模块通常插入在自注意力机制之后、前馈网络之前。具体流程如下：
$\text{Attention Output} = \text{Self-Attention}(Q, K, V)$

$\text{Adapter Output} = \text{Adapter}(\text{Attention Output})$

$\text{FFN Output} = \text{Feed-Forward}(\text{Adapter Output})$

$\text{Layer Output} = \text{FFN Output}$