大模型 | 多模态大模型(MLLM)训练：预训练阶段（Pre-training）详细解析

大模型微调部署

已于 2024-10-26 19:57:31 修改

阅读量2.4k

点赞数 22

文章标签：人工智能深度学习机器学习大模型 AI大模型 LLM 多模态

于 2024-10-21 20:02:08 首次发布

本文链接：https://blog.csdn.net/star_nwe/article/details/143128432

版权

【导读】MLLM 的训练范式大致可以划分为预训练阶段、指令微调阶段和对齐微调阶段。本文介绍预训练阶段（Pre-training），预训练目的是通过大量图文对将图片信息对齐到 LLM 的表征空间，即让 LLM 读懂视觉 Token。

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

一、预训练的目的

多模态大模型（MLLM）预训练的目的是对齐不同模态，并学习多模态世界知识。如 llava 第一阶段训练的目的是为了将图片信息映射到文本语义空间，让 LLM 能够理解图像内容。

注：本文介绍的是广义上的预训练，即完成不同模态之间的对齐，而非特指模型的全量训练。

二、预训练数据

2.1 数据格式

预训练阶段使用大规模文本配对数据，通常为图像、音频或视频的caption数据

用于构建image-text-pair数据的简化模板

下图是从 Flickr8k 中随机采样的 16 个图像文本对：

2.2 数据集

预训练语料库可以根据粒度分为粗粒度和细粒度图文对数据，表中总结了常用的预训练数据集。

粗粒度数据集具有大规模、简短嘈杂的特点，而细粒度数据通过使用高级MLLMs生成，虽然成本较高，但提供了更准确的图文对齐，ShareGPT4V项目展示了一种平衡成本和数据量的策略。

粗粒度数据：

方法：来源互联网，数据量大，描述简短且可能嘈杂。
代表数据集：
LAION-5B：5.85B图像-文本对，多语言，含2B英语子集。
LAION-COCO：从LAION-5B提取的600M英语图像，字幕合成自BLIP和CLIP。
CC-3M：3.3M图像-文本对，原始描述来自alt文本，经过复杂清洗流程，包括图像过滤、文本注释获取和启发式规则过滤，以及图像-文本对的标签匹配。
CC-12M：CC-3M的扩展，包含12.4M图像-字幕对，简化数据收集流程。
SBU Captions：1M图像-文本对，来自Flickr。
LAION系列：大规模网络数据集，图像和字幕来自互联网，经过文本长度、图像大小和去重等过滤步骤。
COYO-700M：747M图像-文本对，来自CommonCrawl，过滤策略包括图像和文本的格式、内容和长度要求，以及去除与公共数据集重叠的图像。

细粒度数据：

方法：使用强大的MLLMs（如GPT-4V）生成高质量细粒度数据。
优势：相比粗粒度数据，细粒度数据包含更长、更准确的图像描述，实现更精细的图文对齐。
挑战：成本较高，数据量较小，依赖商业MLLMs。
代表数据集：ShareGPT4V：通过先用GPT-4V生成的100K数据训练，再扩展到1.2M数据，平衡成本和数据量。

预训练数据集示例

三、代表模型-预训练阶段

这里介绍几种MLLM模型在预训练阶段的数据和训练策略：

3.1 LLaVA

1. 数据

LLaVA 预训练阶段的数据为LLaVA Visual Instruct CC3M Pretrain 595K，是 CC-3M 数据集的子集，通过一系列手段筛选出595K图像-文本对用于训练。

LLaVA Visual Instruct CC3M Pretrain 595K

2. 特征对齐预训练

由于从CLIP提取的特征与word embedding不在同一个语义表达空间，因此，需要通过预训练，将image embedding对齐到text word embedding的语义表达空间。这个阶段冻结Vision Encoder和LLM模型的权重参数，只训练插值层Adapter的权重。

llava 的 pre-training 阶段

3.2 VILA

《VILA: On Pre-training for Visual Language Models》是NVIDIA和MIT提出的一个工作，文中对视觉语言模型预训练的有效机制进行了一些总结，并提出了一系列视觉语言的大模型VILA（Visual Language）。

1. 预训练数据

2. 训练

和LLaVA系列差不多，模型的训练包含三个阶段，如图所示：

Projector init：LLM 和 ViT 都是单独训练的，连接 LLM 和 ViT 的 Projector 是随机初始化的，所以这个阶段首先对 Projector 做训练
Interleaved pre-training：对 LLM 和 Projector 进行训练
Vision-text joint SFT：对预训练模型进行视觉指令微调

VILA: On Pre-training for Visual Language Models

模型指标如下，本文得出结论：

LLM冻结与更新：在预训练过程中，冻结大型语言模型（LLM）可以实现不错的零样本（zero-shot）性能，但缺乏上下文学习能力（in-context learning capability）。为了获得更好的上下文学习能力，需要对LLM进行更新。实验表明，更新LLM有助于在更深层次上对齐视觉和文本的潜在嵌入，这对于继承LLM的上下文学习能力至关重要。
交错预训练数据：交错的视觉语言数据（如MMC4数据集）对于预训练是有益的，而仅使用图像-文本对（如COYO数据集）则不是最佳选择。交错数据结构有助于模型在保持文本能力的同时，学习与图像相关的信息。

3.3 InternVL

1. 预训练数据集

2. 训练

视觉-语言对比训练：进行对比学习，将InternViT-6B与多语言LLaMA-7B在网络规模上的嘈杂图像文本对进行对齐
视觉-语言生成训练：QLLaMA在第一阶段继承了LLaMA-7B的权重。我们保持InternViT-6B和QLLaMA冻结，仅训练新添加的可学习查询和交叉注意力层。
有监督微调：为了强化对话、问答能力，通过MLP层将其与现成的LLM解码器（如Vicuna或InternLM）连接，并进行监督微调

3.4 Qwen-VL

1. 预训练数据

1）stage1-预训练数据

2）stage2-多任务预训练数据

2. 训练

Stage1 为预训练，目标是使用大量的图文Pair对数据对齐视觉模块和LLM的特征，这个阶段冻结LLM模块的参数；
Stage2 为多任务预训练，使用更高质量的图文多任务数据（主要来源自开源VL任务，部分自建数据集），更高的图片像素输入，全参数训练；
Stage3 为指令微调阶段，这个阶段冻结视觉Encoder模块，使用的数据主要来自大模型Self-Instruction方式自动生成，目标是提升模型的指令遵循和多轮对话能力。