多模态大模型的最优预训练范式-CSDN博客

本文探讨了VILA在多模态模型预训练中的关键发现，如预训练阶段参数调整、交叉数据集对模型性能的影响，以及结合有监督微调的策略。研究指出，冻结LLM在零-shot性能最佳，但全量参数预训练在上下文学习上更有优势。MMC4交叉数据集对模型的纯文本和多模态性能影响显著。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：AI小飞侠，CV算法工程师/多模态
声明：本文只做分享，版权归原作者，侵权私信删除！
原文：https://zhuanlan.zhihu.com/p/685586296

编辑：青稞AI

目前主流的多模态大模型的训练基本都是分为预训练和微调两阶段来进行的。

预训练阶段是为了让大语言模型（LLM）具有理解视觉信息的能力，也可以认为是将视觉特征空间对齐到文本空间。

微调阶段就是使用特定领域的数据，通过全量参数或者 LoRA这种参数高效的方法微调，让模型熟悉特定领域的知识。

VILA 这篇文章的研究重点就是从模型架构，数据构造，训练策略三个角度出发，找到一个最优的预训练方法。

paper：VILA: On Pre-training for Visual Language Models
arXiv：https://arxiv.org/pdf/2312.07533.pdf
code：https://github.com/Efficient-Large-Model/VILA

主要结论

相比较于 LLaVA1.5而言，VILA 几乎实现了全面的超越。

• 预训练阶段是否放开 LLM，在 zero-shot上的性能完全一样。但是在 4-shot测试中，预训练阶段放开 LLM 能提高 11%，说明预训练放开 LLM 能极大提高模型的上下文学习能力；
• Projector结构为 Linear 明显优于 Transformer层的堆叠，作者猜测是因为简单的 Linear 能促使 LLM 学习更多处理视觉信息的能力，从而导致更好的泛化性能。

深层 embedding 对齐假设

作者猜测，之所以微调 LLM 很关键，是因为在深层的隐空间中对齐图像和文本信息是非常重要的。

选择预训练数据

交叉数据是至关重要的

• 使用图文对数据集 COYO 训练之后，LLama2的文本能力遭到灾难性遗忘，纯文本准确率（MMLU）下降 17.2%；
• 使用图文交叉数据集 MMC4 训练之后，纯文本能力相较于原始的 Llama2仅仅下降 5.3%，多模态能力相较于 COYO 训练的模型得到极大提升，在 0-shot测试中提升 17%；

相互交叉的数据构成很重要，而不是因为文本分布

MMC4 数据集中文本长度较长，文本数据比较接近于纯文本数据的分布，可能是这个原因导致在纯文本任务中表现较好。

为了排除是因为 MMC4 文本较长导致的在MMLU 上结果较好，作者将 MMCU 改成图文对数据MMC4-pair。

MMC4：<txt1><im1><txt2><txt3><im2><txt4>
MMC4-pair: <im1><txt2>, <im2><txt4>

数据混合提高预训练

即使在预训练的数据中混合了图片文本相互交杂的数据，但纯文本任务还是有 5% 的下降。

这个问题可以在预训练的时候添加文本数据来解决，但是纯文本数据的比例又很难去确定。

作者发现，纯文本能力并没有遗忘，只是暂时隐藏了。只要在微调的时候添加了一点纯文本数据，就能完全恢复 LLM 在纯文本任务上的能力。

联合有监督微调

青稞Talk预告

4月10日晚7点，慕尼黑工业大学视觉计算实验室陈振宇博士，主讲《SceneTex:高质量三维室内场景纹理图生成》。SceneTex 已被 CVPR 2024收录为 Highlight。