简介
从NLP中的监督微调(Supervised Fine-tuning)获得的灵感,本文探索了细粒度SFT在预训练后增强视觉基础模型潜力。本文提出了一种二阶段方法ViSFT释放视觉基础模型细粒度知识。具体地,通过一些域内任务执行视觉联合学习增强视觉基础模型,然后在域外基准任务上进行测试。
模型细节
第一阶段,使用EVA-CLIP模型中预训练的ViT作为backbone并将其冻结。然后独立连接检测、分割、描述头进行微调。该步骤目标是获得与ViT特征兼容的任务头。在第二阶段,用LoRA权重增强ViT,并连接所有任务头进行微调。除了增加的LoRA权重外其他模块将重新冻结。
LoRA更新矩阵
对于EVA-ViT的查询和值嵌入层内的预训练权重矩阵
W
q
/
v
∈
R
d
×
k
W_{q/v}\in \mathbb{R}^{d\times k}
Wq/v∈Rd×k,本文通过引入低秩分解对齐更新添加约束
W
q
/
v
+
Δ
W
=
W
q
/
v
+
B
A
W_{q/v}+\Delta W=W_{q/v}+BA
Wq/v+ΔW=Wq/v+BA,
B
∈
R
d
×
r
,
A
∈
R
r
×
k
B\in \mathbb{R}^{d\times r},A\in \mathbb{R}^{r\times k}
B∈Rd×r,A∈Rr×k。在训练第二阶段,权重矩阵
W
q
,
W
v
W_{q},W_{v}
Wq,Wv冻结,
A
,
B
A,B
A,B包含可训练参数。对于
h
q
/
v
=
W
q
/
v
x
h_{q/v}=W_{q/v}x
hq/v=Wq/vx,前向传播即:
h
q
/
v
=
W
q
/
v
x
+
Δ
W
x
=
W
q
/
v
x
+
B
A
x
h_{q/v}=W_{q/v}x+\Delta W x=W_{q/v}x+BAx
hq/v=Wq/vx+ΔWx=Wq/vx+BAx
检测头
在现有检测头中,DETR第一个引入Transformer,这简化了检测头设计,消除了后处理技术的需要,如NMS。尽管DETR表现出缓慢的速度,但本文并不追求这些域内任务卓越性能。相反使用这些任务头作为桥梁恢复ViT的细粒度信息。
DETR生成固定数量的可学习查询嵌入,这些嵌入用作解码器输入。这些查询通过自注意力相互作用,并通过交叉注意力与平坦图像特征相互作用。
分割头
使用Mask2former作为分割头。作为分割任务统一框架,Mask2former能够处理实例分割和全景分割,从而为各种分割注释的实验提供了便利。
Mask2former也生成固定数量的查询嵌入。分割掩码表示是从第j嵌入的解码器的最终层隐藏状态和每像素特征图之间点积导出。
描述头
采用经典的LSTM网络,通过在每个时间步长生成一个单词生成描述,条件是上下文向量、以前的隐藏状态和以前生成的单词。