【CVPR 2025】打破全参数微调的性能枷锁
-
论文标题:5%>100%:BreakingPerformance Shackles of Full Fine-Tuning on Visual Recognition Tasks
一、简介
预训练&微调可以提高视觉任务的迁移效率和性能。最近的增量调优方法为视觉分类任务提供了更多选择。尽管它们取得了成功,但现有的视觉增量调优方法未能在物体检测和分割等具有挑战性的任务上超越完全微调的上限。为了找到一个与完全微调具有竞争力的替代方案,作者提出了Multi-cognitive Visual Adapter (Mona) 调优,这是一种新颖的基于适配器的调优方法。首先,在适配器中引入多个视觉滤波器,以增强其处理视觉信号的能力,而之前的方法主要依赖于语言友好的线性滤波器。其次,在适配器中添加了缩放归一化层(normalization),以调节视觉滤波器输入特征的分布。为了充分展示Mona的实用性和通用性,在多个代表性的视觉任务上进行了实验,包括在COCO上的实例分割、在ADE20K上的语义分割、在Pascal VOC上的物体检测、在DOTA/STAR上的定向物体检测,以及在三个常见数据集上的图像分类。Mona在所有这些任务上都超越了完全微调,并且是唯一在上述各种任务中表现优于完全微调的增量调优方法。综合结果表明,Mona调优比完全微调更适合保留和利用预训练模型的能力。
二、创新点
Mona是唯一在语义分割、实例分割和定向目标检测上超越完全微调的基于适配器的调优方法。图1说明了所提出的方法在具有挑战性的实例分割和语义分割任务上的优越性。文中贡献可以归纳为三点:
- 证明了基于适配器的调优可以超越在视觉任务上的完全微调,并且在新参数更少的情况下表现优于完全微调。
- 提出了Mona-tuning,这是一种基于多认知视觉适配器(Mona)的新颖且实用的训练范式。Mona采用视觉友好的滤波器来优化传统线性适配器,并通过多种认知视角提高视觉预训练知识的转移效率。
- 实验表明,Mona-tuning在代表性的视觉任务上优于完全微调和其他最新方法,包括图像分类、目标检测、语义分割、实例分割和定向目标检测。
三、原理
文中提出的方法分为三个部分,包括适配器调优(adapter-tuning)、Mona 和参数分析(parameter analysis)。
Adapter-tuning
完全微调(full fine-tuning)更新预训练主干中的所有参数,而适配器微调(adapter-tuning)则固定预训练参数并更新适配器中的参数。对于数据集 D = ( x i , y i ) i = 1 N D = {(x_{i},y_{i})}^{N}_{i=1} D=(xi,yi)i=1N,完全微调和适配器微调的优化过程可以表示为公式1和公式2:
θ ← a r g m i n l o s s θ ( D , θ ) , (1) \theta \leftarrow argmin \ loss_{\theta}(D,\theta), \tag1 θ←argmin lossθ(D,θ),(1)
w ← a r g m i n l o s s w ( D , θ F , w ) , (1) w \leftarrow argmin \ loss_{w}(D,\theta_{F},w), \tag1 w←argmin lossw(D,θF,w),(1)
其中 l o s s loss loss是训练损失, θ \theta θ表示整个框架的参数, θ F \theta_{F} θF是适配器调优中的固定参数。 w w w表示适配器调优中更新的参数,包括适配器中的参数和主干网络外的参数。
Mona
输入优化 使Mona能够调整输入分布和来自固定层的输入比例。具体而言,在Mona的顶部添加了一个归一化层和两个可学习的权重
s
1
s_{1}
s1和
s
2
s_{2}
s2,以调整输入分布。之前的工作表明,normalization有助于稳定前向输入分布和反向传播的梯度。在实践中发现,LayerNorm(LN)优于BatchNorm,因此在Mona中采用LN。图2说明了该设计,可以表述为:
x
n
o
r
m
=
s
1
⋅
∣
x
0
∣
L
N
+
s
2
⋅
x
0
,
(3)
x_{norm} = s_{1} \cdot |x_{0}|_{LN} + s_{2} \cdot x_{0},\tag3
xnorm=s1⋅∣x0∣LN+s2⋅x0,(3)
其中
∣
⋅
∣
L
N
| \cdot |_{LN}
∣⋅∣LN表示层归一化(LayerNorm),
x
0
x_{0}
x0 表示Mona的原始输入。
多认知视觉滤波器
向Mona引入多个卷积滤波器以增加认知维度。Mona中采用深度卷积(DWConv) 而不是标准卷积,以最小化额外的参数规模。具体而言,上游特征在下投影后经过三个DWConv滤波器。卷积核的大小为
3
×
3
3\times3
3×3、
5
×
5
5\times5
5×5和
7
×
7
7\times7
7×7。计算三个滤波器的平均结果,并通过
1
×
1
1\times1
1×1卷积聚合特征。对两种类型的卷积添加了跳跃连接。使用三个深度卷积,权重为
w
d
w
i
∈
R
C
i
n
D
×
K
i
×
K
i
×
C
o
u
t
D
(
i
∈
1
,
2
,
3
)
w^{i}_{dw} \in R^{C^{D}_{in}\times K_{i} \times K_{i} \times C^{D}_{out}} (i \in 1,2,3)
wdwi∈RCinD×Ki×Ki×CoutD(i∈1,2,3) 作为第一个多滤波器卷积,并使用权重为
w
p
w
i
∈
R
C
i
n
P
×
1
×
1
×
C
o
u
t
P
w^{i}_{pw} \in R^{C^{P}_{in}\times 1\times 1\times C^{P}_{out}}
wpwi∈RCinP×1×1×CoutP的点卷积作为第二个卷积。上述两个卷积步骤可以表示如下:
f
d
w
=
x
+
a
v
g
(
∑
i
=
1
3
w
i
)
d
w
⊗
^
x
)
,
f
p
w
=
x
+
w
p
w
⊗
ˉ
x
,
(4)
f_{dw} = x + avg(\sum^{3}_{i=1}w^{i})_{dw} \hat\otimes x), \tag4 \\ f_{pw} = x + w_{pw} \bar\otimes x,
fdw=x+avg(i=1∑3wi)dw⊗^x),fpw=x+wpw⊗ˉx,(4)
其中
⊗
^
\hat\otimes
⊗^ 和
⊗
ˉ
\bar\otimes
⊗ˉ 分别表示深度卷积(depth-wise convolution)和点卷积(point-wise convolution)。然后,通过GeLU 进行非线性化处理,并通过上投影(upprojection)进行恢复。Mona 的整体计算过程可以表述如下:
x
=
x
0
+
U
l
σ
(
f
p
w
(
f
d
w
(
D
l
(
x
n
o
r
m
)
)
)
,
(5)
x =x_{0}+U^{l}σ(f_{pw}(f_{dw}(D^{l}(x_{norm}))),\tag5
x=x0+Ulσ(fpw(fdw(Dl(xnorm))),(5)
其中
D
l
D^{l}
Dl 和
U
l
U^{l}
Ul分别表示第
l
t
h
l^{th}
lth 个适配器(adapter)的下投影和上投影,
σ
σ
σ表示GeLU激活层。
Parameter Analysis
Mona 的参数来自 LN、缩放因子、线性层、DWconv和
1
×
1
1×1
1×1conv。假设适配器的输入维度为
m
m
m,下投影后的维度为
n
n
n,则LN和缩放因子的参数为
2
m
+
2
2m+2
2m+2,两个线性层的参数为
2
m
n
+
m
+
n
2mn+m+n
2mn+m+n,DWConv层的参数为
(
32
+
52
+
72
)
n
=
83
n
(32 +52+72)n = 83n
(32+52+72)n=83n,PWConv的参数为
n
2
n^{2}
n2。每个Mona 模块的总参数为:
(
2
n
+
3
)
m
+
n
2
+
84
n
+
2
(6)
(2n+3)m+n^{2}+84n+2\tag6
(2n+3)m+n2+84n+2(6)
对于每个块, 所有Mona参数为:
2
×
(
2
n
+
3
)
m
+
n
2
+
84
n
+
2
2 × (2n +3)m+n^{2} +84n+2
2×(2n+3)m+n2+84n+2。实验中将
n
n
n的值设置为一个常数(
64
64
64),以减少Mona中的参数。
四、实验
1、数据集
目标检测:PascalVOC0712,采用Swin-Large + RetinaNet 进行训练。目标检测任务的评估指标是最常用的 A P b o x AP_{box} APbox;
语义分割:ADE20K,采用Swin-Large + UperNet 进行语义分割实验。评估指标是最常用的mIoU;
实例分割:MSCOCO,采用Swin-Base+Cascade Mask RCNN 进行训练。实例分割任务的评估指标是 A P b o x AP_{box} APbox和 A P M a s k AP_{Mask} APMask;
定向目标检测:定向目标检测在标注和推理过程中考虑角度信息,这可以有效提高在遥感等领域的目标检测性能和效率。选择了两个具有代表性的遥感数据集DOTA和STAR进行实验。还在更具挑战性的STAR 数据集上实验了多种检测框架。这里的评估指标是 A P b o x AP_{box} APbox;
图像分类:Oxford102Flower,Oxford-IIIT Pet和 VOC 2007分类数据集,报告了每种方法的top-1、top-5和平均准确率。
预训练任务的图像分辨率为 224 × 224 224×224 224×224。大多数任务使用Swin-Large作为主干。
2、Baselines
- 无额外结构:
FULL:更新框架中的所有参数;
FIXED:固定主干(backbone)并更新其他参数;
BITFIT:更新主干中的偏置(bias)和主干外的参数;
NORMTUNING:更新主干中的归一化层(norm layers)和主干外的参数;
PARTIAL-1:更新主干中的最后一个块(block)和主干外的参数。
- 具有额外结构(这些基线中的预训练层是固定的,适配器的中间维度均为64,遵循AdaptFormer):
ADAPTER:在每个SwinBlock的MSA/MLP层后添加标准适配器层;
LORA:向多头注意力权重添加并行可学习矩阵;
ADAPTFORMER:向每个 MLP 层添加带有缩放权重的并行适配器层;
LORAND: 在每个 SwinBlock的 MSA/MLP 后添加 LoRand++ ( α \alpha α=4, β \beta β=16) 层。LoRand++ 在其变体中表现最佳,因此选择了最具挑战性的设置进行比较。
3、实验结果
五、总结
本文提出了一种新颖的视觉微调方法——多认知视觉适配器(Mona)调优,该方法有效提升了视觉微调的效率和性能。综合实验表明,所提出的Mona在实例分割、语义分割、目标检测、图像分类和定向目标检测等代表性任务中,优于传统的全微调范式和其他增量调优方法。在大模型时代,全微调不再是视觉任务的最佳选择。