六、视觉语言模型
MiniMax-VL-01是MiniMax-01的视觉语言版本,通过集成图像编码器和图像适配器,模型具备了强大的视觉理解能力。MiniMax-VL-01的训练过程分为四个阶段,逐步提升了模型在多模态任务中的表现。以下是对视觉语言模型的详细解析。
6.1 多模态数据
MiniMax-VL-01的训练数据是其成功的基础。为了确保模型在多模态任务中的优异表现,MiniMax-01在数据选择、数据格式和数据混合策略上进行了精心设计和优化。
6.1.1 图像-标题数据
为了预训练视觉编码器,MiniMax-VL-01从互联网来源收集并过滤了大量的图像-标题对。模型使用6.94亿个独特的图像-标题对进行训练。为了提升数据质量,MiniMax-VL-01获取了1.8亿张图像的精细标题,并在训练过程中随机采样原始和精细标题,确保数据的多样性和高质量。
6.1.2 描述数据
描述数据在现有的视觉语言模型中被证明对模型训练具有显著效用。MiniMax-VL-01从开放资源(如Common Crawl)中收集了1亿张图像,每张图像都配有一个精细的描述。这些描述平均包含约300个文本token,为模态对齐和增强理解提供了强大的资源。
6.1.3 指令数据
为了训练MiniMax-VL-01,模型构建了一个全面的指令数据集,涵盖了广泛的视觉相关任务,如文本提取、对象定位和几何问题求解。数据集生成过程优先考虑多样性和真实性,确保指令捕捉到不同复杂度和语言风格的任务。
6.1.4 数据分布
为了展示多模态数据的多样性,MiniMax-VL-01从指令数据中均匀采样了100万个图像-指令对,并使用另一个视觉语言模型为每对分配一个简洁的标签(如对象定位)。分析结果显示,这些标签涵盖了约5万个独特的标签,其中前2817个标签出现次数超过10次。这些标签被进一步分为14个主要类别,如图像分类、对象检测和视觉问答等。
6.2 架构
MiniMax-VL-01的架构设计遵循了“ViT-MLP-LLM”范式,这一范式在众多多模态大语言模型(MLLM)中得到了广泛应用。架构主要由三个部分组成:视觉Transformer(ViT)、两层MLP投影器和MiniMax-Text-01模型。
6.2.1 整体架构
MiniMax-VL-01的架构包括:
-
视觉编码器:一个303M参数的ViT,用于视觉编码。
-
图像适配器:一个两层MLP投影器,随机初始化,用于图像适配。
-
语言模型:MiniMax-Text-01作为基础大语言模型(LLM)。
MiniMax-VL-01采用动态分辨率策略,根据预定义的网格配置列表调整输入图像的分辨率,范围从336×336到2016×2016。调整后的图像被分割成非重叠的336×336 patch,每个patch和缩略图分别编码,并将编码特征连接起来构建全面的图像特征表示。
6.2.2 视觉编码器
MiniMax-VL-01采用轻量级的ViT-L/14作为视觉编码器的基础结构,并从头开始训练。输入图像张量首先通过卷积层提取离散patch,然后附加绝对位置嵌入。结果张量通过一系列多头残差注意力块传递,有效捕捉图像中的复杂细节和相互关系。
MiniMax-VL-01使用对比学习来增强图像-标题对之间的对齐,同时减少非对应对的对齐。具体来说,模型遵循CoCa方法,通过额外的解码器和图像-文本交叉注意力机制增强图像-文本对比学习。网络通过对比损失和交叉熵损失联合优化。
ViT-L/14模型首先在224×224分辨率下训练370亿个图像-标题对,然后在336×336分辨率下微调12亿对。在这两种分辨率下,标题被截断为76个token。ViT-L/14编码器在ImageNet-1K数据集上的零样本分类准确率达到80.55%。
6.3 训练方法
MiniMax-VL-01的训练分为四个阶段,逐步提升模型在多模态任务中的表现。
6.3.1 模态对齐
在第一阶段,MiniMax-VL-01的主要目标是实现视觉和文本token之间的对齐,使模型能够为给定图像生成适当的标题。为此,模型更新图像适配器和视觉编码器的权重,优化其在多模态任务中的表现。此阶段使用了800亿个token的图像描述数据。
6.3.2 视觉理解增强
在第二阶段,MiniMax-VL-01进行标准的指令微调,更新所有模型参数,以对齐模型输出与人类指令,并增强其在多样化视觉理解任务中的表现。此阶段使用了4200亿个多模态token,结合MiniMax-Text-01的后训练数据,比例为20:1,确保语言建模能力的同时,模型获得新的多模态能力。
6.3.3 用户体验增强
在第三阶段,MiniMax-VL-01进一步增强了模型在真实场景和复杂用户输入中的表现。模型使用从常见应用程序中收集的复杂多模态数据进行训练,对话经过精心标注,模拟真实用户输入,确保提供准确、有帮助和多样化的响应。此阶段使用了448亿个多模态token,训练一个epoch。
6.3.4 偏好优化
在第四阶段,MiniMax-VL-01使用直接偏好优化(DPO)进一步提升模型表现和用户体验。训练数据集包括4万个图像-文本对,通过以下过程构建:
-
提示选择:从指令数据和真实用户交互数据中筛选提示,涵盖广泛的一般场景和特定问题。
-
响应生成:通过多种策略生成响应,包括变化采样温度、图像弱化和引入幻觉或错误。
-
奖励分配:使用MiniMax-Text-01作为评估者,设计多维度评估标准,系统评估提示、真实答案和生成响应之间的关系。
-
对构建:根据评估结果,选择最高分响应作为正样本,最低分响应作为负样本,丢弃差异不显著的对。
此外,MiniMax-VL-01还包含了大量纯文本对,以防止过拟合并保持模型的泛化能力。
6.4 基准测试
MiniMax-VL-01在多个基准上进行了全面评估,展示了其在知识、视觉推理、数学、科学、长上下文处理和用户体验等方面的卓越能力。
6.4.1 常见下游任务
在标准视觉语言下游任务中,MiniMax-VL-01表现优异,尤其在视觉问答任务上展现了强大的能力。然而,模型在高级数学推理任务(如OlympiadBench)上仍面临挑战。
6.4.2 长上下文处理
MiniMax-VL-01在MMLongBench-Doc基准上评估了其长上下文理解和检索能力。结果显示,模型在单页和跨页子集上表现优异,尽管与GPT-4o-11-20相比仍存在一定差距。
6.4.3 综合基准
在MEGA-Bench基准上,MiniMax-VL-01展现了强大的综合能力,尤其在知识和编码任务上表现突出。然而,模型在复杂任务(如规划和度量评估)上仍需进一步提升。
6.4.4 内部用户体验基准
MiniMax-VL-01开发了一个内部用户体验基准,涵盖90个多样化的图像相关任务,每个任务都设计了具有挑战性的指令。最终测试集包括524个精心标注的中英文样本,模型在中文任务上表现尤为出色。
7. 结论与未来工作
MiniMax-01系列模型在标准基准测试中表现优异,尤其是在长上下文处理上展现了强大的能力。通过创新的闪电注意力机制和优化的硬件利用,MiniMax-01成功将上下文窗口扩展了一个数量级,为未来的AI模型开辟了新的道路。尽管MiniMax-01在通用语言和视觉语言任务上表现出色,但仍有一些局限性需要进一步探索,如长上下文评估、模型架构优化和复杂编程任务的提升。
MiniMax-01的发布标志着AI模型在长上下文处理上的重大突破,未来将继续推动这一领域的发展,为更复杂的AI应用奠定基础。
8. 如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】