VLM系列文章4-Prismatic VLMs

论文:https://arxiv.org/pdf/2402.07865.pdf

TL&DL

这篇文章基于 LLaVA 1.5 的框架,对于视觉大语言模型 (Vison Language Model) 的训练、架构等设计方案进行了消融实验。通过在一系列视觉语言的测试集上综合比较,作者得出了在这一框架下的最优的训练策略。其探索了以下几个维度。
在这里插入图片描述

1. 优化策略(Optimization Procedure)

1、是否要多阶段训练?

LLaVA v1.5 采用了两阶段的训练策略,第一阶段利用 captioning 数据训练视觉对齐模块,第二阶段则是在 intruction tuning 数据上训练对齐模块以及语言模型。
作者发现:直接进行第二阶段能够提升效率并且提升下游各个任务上的性能。后续所有实验都只进行第二阶段的训练。
在这里插入图片描述

2、是否要优化视觉编码器?

作者尝试在实验中对视觉编码器进行训练,发现模型在下游任务上的性能普遍下降,特别在针对物体定位的任务性能退化的尤为明显。作者推测原因是因为训练数据的多样性不足导致的。
在这里插入图片描述

2. 图片处理和视觉表征(Image Processing & Visual Representations):

  • 1、作者采用了不同的视觉编码器(CLIP,SigLIP,DINOv2 和 VIT pre-trained on ImageNet-21K),结果发现在同等输入图片分辨率的情况下,CLIP 和 SigLIP 显著优于其他编码器;
  • 2、对于图片的 resize 操作,作者对比了 padding 和直接 resize,发现对于 CLIP 而言直接 resizing 效果最好,而 SigLIP 则对 padding 和 resize 不太敏感;
  • 3、输入图片的分辨率提升至 336 甚至是 384 时,下游任务的性能能够获得显著的提升,但视觉 token 的数量大幅上升造成的是计算量的大幅上升;
    在这里插入图片描述
    4、最后,作者探索了 ensemble 不同编码器的 feature(直接拼接 patch feature dimension,更改 MLP 对齐模块的输入维度),发现 SigLIP + DINOv2 的方案能够大幅提升性能,特别是在物体定位的任务上,但 CLIP + DINOv2 则无法取得一致的提升。
    在这里插入图片描述

3. 图片处理和视觉表示选择的对比

1、Base v.s. Instruct-tuned LMs: 文章对比了采用 Llama-2 和 Vicuna 1.5 对比 Base 和 instruct-tuned LMs 的模型的效果,发现在量化指标上二者没有显著的区别,但是在定性的分析上来看,采用 Vicuna 1.5 能够产生更细致的回复,也同样更容易产生幻觉;

在这里插入图片描述
2、Text-only Data Effect: 进一步地,作者分析了在第二阶段中移除 ShareGPT 数据的效果,发现纯文本的数据能够提升模型的安全性,避免产生带有偏见的回答,而对于多模态任务的影响则可以忽略不计。
在这里插入图片描述

4. Scaling Properties

文章最后探究了训练是否 underfit 的问题,发现训练更久 1 epoch -> 2 epoch 能够有显著的提升,并且增加额外的训练数据(例如 LRV-Instruct 和 LVIS-Instruct-4V )能够进一步提升性能。
在这里插入图片描述

5. 总结

基于这些发现,作者将所有的策略汇总,得到一个优化的训练策略:

  • 只进行第二阶段训练
  • 视觉采用高分辨率(384)和 SigLIP + DINOv2 feature ensemble
  • 采用 Llama-2 作为语言模型基座
  • 训练更久并且使用额外的数据

最终的模型 Prism 能够显著地超越 LLaVA v1.5 以及 InstructBLIP。
在这里插入图片描述

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值