VLM系列文章4-Prismatic VLMs_special vlm-CSDN博客

本文链接：https://blog.csdn.net/alxe_made/article/details/140800495

论文：https://arxiv.org/pdf/2402.07865.pdf

TL&DL

这篇文章基于 LLaVA 1.5 的框架，对于视觉大语言模型 (Vison Language Model) 的训练、架构等设计方案进行了消融实验。通过在一系列视觉语言的测试集上综合比较，作者得出了在这一框架下的最优的训练策略。其探索了以下几个维度。

1. 优化策略（Optimization Procedure）

1、是否要多阶段训练？

LLaVA v1.5 采用了两阶段的训练策略，第一阶段利用 captioning 数据训练视觉对齐模块，第二阶段则是在 intruction tuning 数据上训练对齐模块以及语言模型。
作者发现：直接进行第二阶段能够提升效率并且提升下游各个任务上的性能。后续所有实验都只进行第二阶段的训练。
在这里插入图片描述

2、是否要优化视觉编码器？

作者尝试在实验中对视觉编码器进行训练，发现模型在下游任务上的性能普遍下降，特别在针对物体定位的任务性能退化的尤为明显。作者推测原因是因为训练数据的多样性不足导致的。
在这里插入图片描述

2. 图片处理和视觉表征（Image Processing & Visual Representations）：

1、作者采用了不同的视觉编码器（CLIP，SigLIP，DINOv2 和 VIT pre-trained on ImageNet-21K），结果发现在同等输入图片分辨率的情况下，CLIP 和 SigLIP 显著优于其他编码器；
2、对于图片的 resize 操作，作者对比了 padding 和直接 resize，发现对于 CLIP 而言直接 resizing 效果最好，而 SigLIP 则对 padding 和 resize 不太敏感；
3、输入图片的分辨率提升至 336 甚至是 384 时，下游任务的性能能够获得显著的提升，但视觉 token 的数量大幅上升造成的是计算量的大幅上升；

4、最后，作者探索了 ensemble 不同编码器的 feature（直接拼接 patch feature dimension，更改 MLP 对齐模块的输入维度），发现 SigLIP + DINOv2 的方案能够大幅提升性能，特别是在物体定位的任务上，但 CLIP + DINOv2 则无法取得一致的提升。

3. 图片处理和视觉表示选择的对比

1、Base v.s. Instruct-tuned LMs: 文章对比了采用 Llama-2 和 Vicuna 1.5 对比 Base 和 instruct-tuned LMs 的模型的效果，发现在量化指标上二者没有显著的区别，但是在定性的分析上来看，采用 Vicuna 1.5 能够产生更细致的回复，也同样更容易产生幻觉；

在这里插入图片描述
2、Text-only Data Effect: 进一步地，作者分析了在第二阶段中移除 ShareGPT 数据的效果，发现纯文本的数据能够提升模型的安全性，避免产生带有偏见的回答，而对于多模态任务的影响则可以忽略不计。