MiniMax-01技术报告解读（五）视觉语言模型

本文链接：https://blog.csdn.net/Androiddddd/article/details/145183480

六、视觉语言模型

MiniMax-VL-01是MiniMax-01的视觉语言版本，通过集成图像编码器和图像适配器，模型具备了强大的视觉理解能力。MiniMax-VL-01的训练过程分为四个阶段，逐步提升了模型在多模态任务中的表现。以下是对视觉语言模型的详细解析。

6.1 多模态数据

MiniMax-VL-01的训练数据是其成功的基础。为了确保模型在多模态任务中的优异表现，MiniMax-01在数据选择、数据格式和数据混合策略上进行了精心设计和优化。

6.1.1 图像-标题数据

为了预训练视觉编码器，MiniMax-VL-01从互联网来源收集并过滤了大量的图像-标题对。模型使用6.94亿个独特的图像-标题对进行训练。为了提升数据质量，MiniMax-VL-01获取了1.8亿张图像的精细标题，并在训练过程中随机采样原始和精细标题，确保数据的多样性和高质量。

6.1.2 描述数据

描述数据在现有的视觉语言模型中被证明对模型训练具有显著效用。MiniMax-VL-01从开放资源（如Common Crawl）中收集了1亿张图像，每张图像都配有一个精细的描述。这些描述平均包含约300个文本token，为模态对齐和增强理解提供了强大的资源。

6.1.3 指令数据

为了训练MiniMax-VL-01，模型构建了一个全面的指令数据集，涵盖了广泛的视觉相关任务，如文本提取、对象定位和几何问题求解。数据集生成过程优先考虑多样性和真实性，确保指令捕捉到不同复杂度和语言风格的任务。

6.1.4 数据分布

为了展示多模态数据的多样性，MiniMax-VL-01从指令数据中均匀采样了100万个图像-指令对，并使用另一个视觉语言模型为每对分配一个简洁的标签（如对象定位）。分析结果显示，这些标签涵盖了约5万个独特的标签，其中前2817个标签出现次数超过10次。这些标签被进一步分为14个主要类别，如图像分类、对象检测和视觉问答等。

在这里插入图片描述

6.2 架构

MiniMax-VL-01的架构设计遵循了“ViT-MLP-LLM”范式，这一范式在众多多模态大语言模型（MLLM）中得到了广泛应用。架构主要由三个部分组成：视觉Transformer（ViT）、两层MLP投影器和MiniMax-Text-01模型。

6.2.1 整体架构

MiniMax-VL-01的架构包括：

视觉编码器：一个303M参数的ViT，用于视觉编码。
图像适配器：一个两层MLP投影器，随机初始化，用于图像适配。
语言模型：MiniMax-Text-01作为基础大语言模型（LLM）。

MiniMax-VL-01采用动态分辨率策略，根据预定义的网格配置列表调整输入图像的分辨率，范围从336×336到2016×2016。调整后的图像被分割成非重叠的336×336 patch，每个patch和缩略图分别编码，并将编码特征连接起来构建全面的图像特征表示。

6.2.2 视觉编码器

MiniMax-VL-01采用轻量级的ViT-L/14作为视觉编码器的基础结构，并从头开始训练。输入图像张量首先通过卷积层提取离散patch，然后附加绝对位置嵌入。结果张量通过一系列多头残差注意力块传递，有效捕捉图像中的复杂细节和相互关系。

MiniMax-VL-01使用对比学习来增强图像-标题对之间的对齐，同时减少非对应对的对齐。具体来说，模型遵循CoCa方法，通过额外的解码器和图像-文本交叉注意力机制增强图像-文本对比学习。网络通过对比损失和交叉熵损失联合优化。

ViT-L/14模型首先在224×224分辨率下训练370亿个图像-标题对，然后在336×336分辨率下微调12亿对。在这两种分辨率下，标题被截断为76个token。ViT-L/14编码器在ImageNet-1K数据集上的零样本分类准确率达到80.55%。

6.3 训练方法

MiniMax-VL-01的训练分为四个阶段，逐步提升模型在多模态任务中的表现。

6.3.1 模态对齐

在第一阶段，MiniMax-VL-01的主要目标是实现视觉和文本token之间的对齐，使模型能够为给定图像生成适当的标题。为此，模型更新图像适配器和视觉编码器的权重，优化其在多模态任务中的表现。此阶段使用了800亿个token的图像描述数据。

6.3.2 视觉理解增强

在第二阶段，MiniMax-VL-01进行标准的指令微调，更新所有模型参数，以对齐模型输出与人类指令，并增强其在多样化视觉理解任务中的表现。此阶段使用了4200亿个多模态token，结合MiniMax-Text-01的后训练数据，比例为20:1，确保语言建模能力的同时，模型获得新的多模态能力。

6.3.3 用户体验增强

在第三阶段，MiniMax-VL-01进一步增强了模型在真实场景和复杂用户输入中的表现。模型使用从常见应用程序中收集的复杂多模态数据进行训练，对话经过精心标注，模拟真实用户输入，确保提供准确、有帮助和多样化的响应。此阶段使用了448亿个多模态token，训练一个epoch。

6.3.4 偏好优化

在第四阶段，MiniMax-VL-01使用直接偏好优化（DPO）进一步提升模型表现和用户体验。训练数据集包括4万个图像-文本对，通过以下过程构建：

提示选择：从指令数据和真实用户交互数据中筛选提示，涵盖广泛的一般场景和特定问题。
响应生成：通过多种策略生成响应，包括变化采样温度、图像弱化和引入幻觉或错误。
奖励分配：使用MiniMax-Text-01作为评估者，设计多维度评估标准，系统评估提示、真实答案和生成响应之间的关系。
对构建：根据评估结果，选择最高分响应作为正样本，最低分响应作为负样本，丢弃差异不显著的对。

此外，MiniMax-VL-01还包含了大量纯文本对，以防止过拟合并保持模型的泛化能力。

6.4 基准测试

MiniMax-VL-01在多个基准上进行了全面评估，展示了其在知识、视觉推理、数学、科学、长上下文处理和用户体验等方面的卓越能力。

6.4.1 常见下游任务

在标准视觉语言下游任务中，MiniMax-VL-01表现优异，尤其在视觉问答任务上展现了强大的能力。然而，模型在高级数学推理任务（如OlympiadBench）上仍面临挑战。

6.4.2 长上下文处理

MiniMax-VL-01在MMLongBench-Doc基准上评估了其长上下文理解和检索能力。结果显示，模型在单页和跨页子集上表现优异，尽管与GPT-4o-11-20相比仍存在一定差距。

6.4.3 综合基准

在MEGA-Bench基准上，MiniMax-VL-01展现了强大的综合能力，尤其在知识和编码任务上表现突出。然而，模型在复杂任务（如规划和度量评估）上仍需进一步提升。

6.4.4 内部用户体验基准

MiniMax-VL-01开发了一个内部用户体验基准，涵盖90个多样化的图像相关任务，每个任务都设计了具有挑战性的指令。最终测试集包括524个精心标注的中英文样本，模型在中文任务上表现尤为出色。

7. 结论与未来工作

MiniMax-01系列模型在标准基准测试中表现优异，尤其是在长上下文处理上展现了强大的能力。通过创新的闪电注意力机制和优化的硬件利用，MiniMax-01成功将上下文窗口扩展了一个数量级，为未来的AI模型开辟了新的道路。尽管MiniMax-01在通用语言和视觉语言任务上表现出色，但仍有一些局限性需要进一步探索，如长上下文评估、模型架构优化和复杂编程任务的提升。

MiniMax-01的发布标志着AI模型在长上下文处理上的重大突破，未来将继续推动这一领域的发展，为更复杂的AI应用奠定基础。