作者:AI小飞侠,CV算法工程师/多模态
声明:本文只做分享,版权归原作者,侵权私信删除!
原文:https://zhuanlan.zhihu.com/p/685586296编辑:青稞AI

目前主流的多模态大模型的训练基本都是分为预训练和微调两阶段来进行的。
预训练阶段是为了让大语言模型(LLM)具有理解视觉信息的能力,也可以认为是将视觉特征空间对齐到文本空间。
微调阶段就是使用特定领域的数据,通过全量参数或者 LoRA这种参数高效的方法微调,让模型熟悉特定领域的知识。
VILA 这篇文章的研究重点就是从模型架构,数据构造,训练策略三个角度出发,找到一个最优的预训练方法。
paper:VILA: On Pre-training for Visual Language Models
arXiv:https://arxiv.org/pdf/2312.07533.pdf
code:https://github.com/Efficient-Large-Model/VILA
主要结论
• 在预训练阶段冻结 LLM,在 zero-shot上的性能可以达到最优。但如果需要上下文学习的能力,需要在预训练阶段放开 LLM 的参数;
• 图片文本相互交叉的预训练数据比较有利于训练,单纯的图片文本对并不是最优的;
• 在指令微调阶段,将纯文本指令数据混杂到图片-文本数据中,不仅能缓解纯文本任务性能的下降,而且能提高视觉、语言模型(VLM)任务的准确率。

相比较于 LLaVA1.5而言,VILA 几乎实现了全面的超越。
预训练VLM
更新LLM 是至关重要的

• 预训练阶段是否放开 LLM,在 zero-shot上的性能完全一样。但是在 4-shot测试中,预训练阶段放开 LLM 能提高 11%,说明预训练放开 LLM 能极大提高模型的上下文学习能力;
• Projector结构为 Linear 明显优于 Transformer层的堆叠,作者猜测是因为简单的 Linear 能促使 LLM 学习更多处理视觉信息的能力,从而导致更好的泛化性能。
深层 embedding 对齐假设
作者猜测,之所以微调 LLM 很关键,是因为在深层的隐空间中对齐图像和文本信息是非常重要的。

相互交叉的视觉语言语料库能帮助预训练
选择预训练数据

• MMC4 是图片文本相互交叉的数据集,平均每个样本对应 4 张图片,每张图片对应 122.5 个 tokens;
• COYO 是图文对数据集,文本部分都比较短,每张图片对应 22.7 个 tokens;
• 训练的时候每个数据集根据 CLIP特征的相似度选择 25M 张图片;
交叉数据是至关重要的

• 使用图文对数据集 COYO 训练之后,LLama2的文本能力遭到灾难性遗忘,纯文本准确率(MMLU)下降 17.2%;
• 使用图文交叉数据集 MMC4 训练之后,纯文本能力相较于原始的 Llama2仅仅下降 5.3%,多模态能力相较于 COYO 训练的模型得到极大提升,在 0-shot测试中提升 17%;
相互交叉的数据构成很重要,而不是因为文本分布
MMC4 数据集中文本长度较长,文本数据比较接近于纯文本数据的分布,可能是这个原因导致在纯文本任务中表现较好。
为了排除是因为 MMC4 文本较长导致的在MMLU 上结果较好,作者将 MMCU 改成图文对数据MMC4-pair。
MMC4:<txt1><im1><txt2><txt3><im2><txt4>
MMC4-pair: <im1><txt2>, <im2><txt4>
• MMC4-pairs在纯文本任务MMLU上稍微减小了 COYO 的性能下降,这可能是因为较长的文本;
• MMC4-pairs相较于 COYO 在多模态任务上结果变得更差,这可能是因为MMC4-pairs数据中图片和文本没有很强的匹配关系;

• MMC4相较于 MMC4-pair在训练过程中损失更低,这表明完整的文本分割提高了更多的信息;

• 综合上面的分析可以得出结论:相互交叉的数据允许模型去选择图片相关的信息,不会更多强迫模型去学习不相关的文本建模。
数据混合提高预训练
• 在混合了 MMC4 和 COYO 后,在多模型任务中模型进一步获得了提高。
结合有监督微调(SFT)后恢复了LLM的下降
即使在预训练的数据中混合了图片文本相互交杂的数据,但纯文本任务还是有 5% 的下降。
这个问题可以在预训练的时候添加文本数据来解决,但是纯文本数据的比例又很难去确定。
作者发现,纯文本能力并没有遗忘,只是暂时隐藏了。只要在微调的时候添加了一点纯文本数据,就能完全恢复 LLM 在纯文本任务上的能力。
联合有监督微调

• 一般的多模态大模型在微调阶段只使用视觉语言数据,这会导致纯文本任务性能的下降;
• 作者在 FLAN 中采样 1M纯文本指令数据,混杂在多模态数据集中微调模型;
• 结果表明,这种方法不仅完全恢复了 LLM 的纯文本能力,而且也进一步提高了模型在多模态任务中的能力;
• 这可能是因为纯文本数据提高了模型的指令跟随能力,这个能力对于多模态任务也很重要。
青稞Talk预告
4月10日晚7点,慕尼黑工业大学视觉计算实验室陈振宇博士,主讲《SceneTex:高质量三维室内场景纹理图生成》。SceneTex 已被 CVPR 2024收录为 Highlight。
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦