Supervised Fine-tuning in turn Improves Visual Foundation Models

本文探讨了一种通过在预训练的ViT基础上进行两阶段增强的方法,首先通过视觉联合学习增强基础模型,然后使用LoRA和领域内任务头进行微调。文章详细介绍了检测、分割和描述头的处理方式。
摘要由CSDN通过智能技术生成

简介

从NLP中的监督微调(Supervised Fine-tuning)获得的灵感,本文探索了细粒度SFT在预训练后增强视觉基础模型潜力。本文提出了一种二阶段方法ViSFT释放视觉基础模型细粒度知识。具体地,通过一些域内任务执行视觉联合学习增强视觉基础模型,然后在域外基准任务上进行测试。

模型细节

第一阶段,使用EVA-CLIP模型中预训练的ViT作为backbone并将其冻结。然后独立连接检测、分割、描述头进行微调。该步骤目标是获得与ViT特征兼容的任务头。在第二阶段,用LoRA权重增强ViT,并连接所有任务头进行微调。除了增加的LoRA权重外其他模块将重新冻结。

LoRA更新矩阵

对于EVA-ViT的查询和值嵌入层内的预训练权重矩阵 W q / v ∈ R d × k W_{q/v}\in \mathbb{R}^{d\times k} Wq/vRd×k,本文通过引入低秩分解对齐更新添加约束 W q / v + Δ W = W q / v + B A W_{q/v}+\Delta W=W_{q/v}+BA Wq/v+ΔW=Wq/v+BA B ∈ R d × r , A ∈ R r × k B\in \mathbb{R}^{d\times r},A\in \mathbb{R}^{r\times k} BRd×r,ARr×k。在训练第二阶段,权重矩阵 W q , W v W_{q},W_{v} Wq,Wv冻结, A , B A,B A,B包含可训练参数。对于 h q / v = W q / v x h_{q/v}=W_{q/v}x hq/v=Wq/vx,前向传播即:
h q / v = W q / v x + Δ W x = W q / v x + B A x h_{q/v}=W_{q/v}x+\Delta W x=W_{q/v}x+BAx hq/v=Wq/vx+ΔWx=Wq/vx+BAx

检测头

在现有检测头中,DETR第一个引入Transformer,这简化了检测头设计,消除了后处理技术的需要,如NMS。尽管DETR表现出缓慢的速度,但本文并不追求这些域内任务卓越性能。相反使用这些任务头作为桥梁恢复ViT的细粒度信息。
DETR生成固定数量的可学习查询嵌入,这些嵌入用作解码器输入。这些查询通过自注意力相互作用,并通过交叉注意力与平坦图像特征相互作用。

分割头

使用Mask2former作为分割头。作为分割任务统一框架,Mask2former能够处理实例分割和全景分割,从而为各种分割注释的实验提供了便利。
Mask2former也生成固定数量的查询嵌入。分割掩码表示是从第j嵌入的解码器的最终层隐藏状态和每像素特征图之间点积导出。

描述头

采用经典的LSTM网络,通过在每个时间步长生成一个单词生成描述,条件是上下文向量、以前的隐藏状态和以前生成的单词。

  • 7
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

qgh1223

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值