Supervised Fine-tuning in turn Improves Visual Foundation Models

最新推荐文章于 2024-07-24 10:39:16 发布

qgh1223

最新推荐文章于 2024-07-24 10:39:16 发布

阅读量506

点赞数 7

文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/qgh1223/article/details/137338628

版权

本文探讨了一种通过在预训练的ViT基础上进行两阶段增强的方法，首先通过视觉联合学习增强基础模型，然后使用LoRA和领域内任务头进行微调。文章详细介绍了检测、分割和描述头的处理方式。

摘要由CSDN通过智能技术生成

简介

从NLP中的监督微调（Supervised Fine-tuning）获得的灵感，本文探索了细粒度SFT在预训练后增强视觉基础模型潜力。本文提出了一种二阶段方法ViSFT释放视觉基础模型细粒度知识。具体地，通过一些域内任务执行视觉联合学习增强视觉基础模型，然后在域外基准任务上进行测试。

模型细节

第一阶段，使用EVA-CLIP模型中预训练的ViT作为backbone并将其冻结。然后独立连接检测、分割、描述头进行微调。该步骤目标是获得与ViT特征兼容的任务头。在第二阶段，用LoRA权重增强ViT，并连接所有任务头进行微调。除了增加的LoRA权重外其他模块将重新冻结。

LoRA更新矩阵

对于EVA-ViT的查询和值嵌入层内的预训练权重矩阵 $W_{q/v}\in \mathbb{R}^{d\times k}$ ，本文通过引入低秩分解对齐更新添加约束 $W_{q/v}+\Delta W=W_{q/v}+BA$ ， $B\in \mathbb{R}^{d\times r},A\in \mathbb{R}^{r\times k}$ 。在训练第二阶段，权重矩阵 $W_{q},W_{v}$ 冻结， $A, B$ 包含可训练参数。对于 $h_{q/v}=W_{q/v}x$ ，前向传播即：
$h_{q/v}=W_{q/v}x+\Delta W x=W_{q/v}x+BAx$

检测头

在现有检测头中，DETR第一个引入Transformer，这简化了检测头设计，消除了后处理技术的需要，如NMS。尽管DETR表现出缓慢的速度，但本文并不追求这些域内任务卓越性能。相反使用这些任务头作为桥梁恢复ViT的细粒度信息。
DETR生成固定数量的可学习查询嵌入，这些嵌入用作解码器输入。这些查询通过自注意力相互作用，并通过交叉注意力与平坦图像特征相互作用。

分割头

使用Mask2former作为分割头。作为分割任务统一框架，Mask2former能够处理实例分割和全景分割，从而为各种分割注释的实验提供了便利。
Mask2former也生成固定数量的查询嵌入。分割掩码表示是从第j嵌入的解码器的最终层隐藏状态和每像素特征图之间点积导出。

描述头

采用经典的LSTM网络，通过在每个时间步长生成一个单词生成描述，条件是上下文向量、以前的隐藏状态和以前生成的单词。

qgh1223

关注

7
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
0
评论
Supervised Fine-tuning in turn Improves Visual Foundation Models

从NLP中的监督微调（Supervised Fine-tuning）获得的灵感，本文探索了细粒度SFT在预训练后增强视觉基础模型潜力。本文提出了一种二阶段方法ViSFT释放视觉基础模型细粒度知识。具体地，通过一些域内任务执行视觉联合学习增强视觉基础模型，然后在域外基准任务上进行测试。
复制链接

扫一扫