VLM系列文章3-VILA(On Pre-training for Visual Language Models)

论文:https://arxiv.org/abs/2312.07533

TL;DL

在这里插入图片描述

  • 在预训练中冻结LLM可以获得良好的零样本表现,但缺乏上下文学习能力,这需要解冻LLM;

  • 交织的预训练数据是有益的,其中单独的图像-文本对不是最优的;

  • 在指令微调期间,将纯文本指令数据与图像文本数据重新混合,不仅解决了纯文本任务的退化问题,而且提高了VLM任务的准确性。通过增强的预训练方法;

2. 动机

最近的一些工作在设计桥接器时候主要有两种范式,一种是交叉注意的,另外一种是自回归的(将视觉token作为LLM的prefix),后者慢慢成为主流;考虑EMU、flamigo等工作的ICL能力,作者这里发现llava系列ICL能力并不work,随着样本增加反而效果较差。
在这里插入图片描述

3. 微调LLM in PT

在这里插入图片描述

然后作者设计了几组对比试验:在设置(a)-(c)时用Transformer块来代替单个线性层[38],这在冻结LLM时提供了足够的容量。用MMC4-core[70]进行比较

发现:

  • (1) 尽管使用了高容量设计,但在SFT期间仅训练投影器会导致性能不佳(设置a)。在SFT期间微调LLM是值得的。
  • (2) 有趣的是,在预训练期间冻结LLM不会影响零样本性能,但会降低上下文学习能力(即,4-样本,比较设置b和c)。字幕数据集(COCO和Flickr)的差距甚至更大,因为它们是分布式的(指令调整数据大多与VQA相似),在冻结LLM时显示出较差的泛化能力。
  • (3) 当使用小容量投影器(线性层而不是Transformer块)时,精度略高(比较设置c和设置d)。假设一个更简单的投影器迫使LLM学习更多关于处理视觉输入的知识,从而获得更好的泛化能力。

4. PT数据集影响

在这里插入图片描述
在这里插入图片描述
主要有两种类型数据:

  • 大多数VLM预训练依赖于图像-文本对(即,图像和字幕),如LAION,COYO,COYO字幕通常很短,与LLM训练的纯文本语料库相比;
  • 与纯文本语料库相比,交错的图像-文本数据集(MMC4,M3W)遵循更相似的分布;

交错数据结构很重要,但与文本分布无关。自然进一步质疑这些好处是来自更好的文本分布(例如,更长)还是来自交错性质。为了对这一点做消融,构建一个新的MMC4变型,只保留图像及其相应的文本片段,不考虑交错性质,称为“MMC4对”;

在这里插入图片描述
发现:

  • 与字幕数据(COYO)相比,对MMC4数据的预训练提供了更好的视觉-语言准确性(零样本和少样本)和纯文本准确性下降较小。
  • 好处来自交织特性,但不是更好的文本分布(MMC4和MMC4对)。混合交织和字幕数据提供了更好的多样性和下游精度
  • 对MMC4预训练的损失较低,因这表明全文片段提供了更多的信息。因此,交错数据结构至关重要,它允许模型拣取与图像相关的信息,而不会过度强迫去学习不相关的文本建模。
  • 对图像-文本对的训练只会导致纯文本准确性的急剧下降(超过17%)。幸运的是,混合的语料库和图像-文本对可以在语料库中引入更多的多样性,同时也防止了严重的退化。MMC4+COYO上的训练进一步提高了视觉-语言基准测试的准确性。

5. SFT数据影响

在PT阶段,MMLU还是出现了一定程度的下降,LLM能力出现了下降,一种方法是PT阶段加入,纯文本功能暂时是隐藏的(hidden),但不会被遗忘(forgotten)。在SFT期间添加纯文本数据可以帮助弥补退化,尽管使用的规模与文本预训练语料库(通常为万亿规模)相比要小得多。

在这里插入图片描述

6. 与其他模型对比

在这里插入图片描述
对比VILA-7B (ours) 和LLaVA-1.5各项指标上有所提高。可能ICL能力提高较多,但是PT数据集50M代价是不小的,主要是为了step2的交错数据PT做准备的。

7. 总结

这篇文章主要探究的是LLAVA中潜在的ICL能力退化问题,提出了在训练阶段解冻LLM,使用交错图文对进行训练,同时在SFT阶段使用一定的文本来缓解模型纯文本任务退化等问题。

  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值