寒武纪提出视觉AI新高度：不再依赖LLM, Cambrian-1模型让世界看见多模态的力量！_cambrian-1: a fully open, vision-centric explorati-CSDN博客

本文链接：https://blog.csdn.net/soaring_casia/article/details/141171118

论文标题:

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

作者团队：纽约大学谢赛宁, Yann LeCun等人

导读：

寒武纪1号(Cambrian-1)，一种以视觉为核心设计的多模态大语言模型（MLLMs），由谢赛宁和Yann LeCun大佬的团队开发。研究的目的是通过视觉指令调优来评估和改进各种视觉表示。Cambrian-1不仅在多个基准测试中表现优异，还为多模态系统和视觉学习提供了全面且开放的指南。目前的问题是多模态大模型还缺乏对以视觉为中心系统的深入研究。Cambrian-1通过Cambrian Vision-Centric Benchmark (CV-Bench)和新的视觉连接器设计（SVA）提升了视觉特征的整合效率，并强调高质量的视觉指令调优数据对提升模型性能的重要性。©️【深蓝AI】编译

1. 摘要

作者介绍了Cambrian-1，这是一系列以视觉为中心的多模态大型语言模型（MLLMs）。虽然更强大的语言模型可以增强多模态能力，但视觉组件的设计选择往往探索不足，与视觉表示学习的研究相脱节。

这一差距阻碍了在现实世界场景中准确的感知基础。

作者的研究使用LLMs和视觉指导调整作为接口，评估各种视觉表达，为不同模型和架构提供新见解——无论是自监督、强监督还是二者的结合——基于对超过20种视觉编码器的实验。

作者对现有的MLLM基准进行了深入的审查，解决了在不同任务中整合和解释结果所涉及的困难，并引入了一个新的以视觉为中心的基准，CV-Bench。

为了进一步改善视觉基础，作者提出了空间视觉聚合器（SVA），这是一个动态的、空间意识的连接器，它将高分辨率视觉特征与LLMs整合在一起，同时减少了tokens的数量。

此外，作者讨论了从公开可用来源策划高质量视觉指导调整数据的重要性，强调了数据源平衡和分配比例的重要性。

总的来说，Cambrian-1不仅实现了最先进的性能，而且还提供了一个全面的、公开的多模态LLMs指导调整和评估的cook-book。

作者提供了模型权重、代码、支持工具、数据集以及详细的指导调整和评估方法。作者希望作者的发布能激发并加速多模态系统和视觉表示学习的进步。

2. 问题引入

这项研究探讨了多模态大型语言模型（MLLMs）在视觉表示学习方面的应用和挑战。研究团队在这项名为“Cambrian-1”的研究中,作者提出了两个现在MLLM的两个关键问题：

1）过早过重地依赖语言可能会成为一种捷径，这种做法可能会弥补在学习有效视觉表征方面的不足；

2）现有的基准测试可能无法为现实世界场景提供充分的指导——在这些场景中，视觉基础对于健壮的多模态理解至关重要。这些担忧并非没有根据，因为研究人员已经开始注意到，在一些具有挑战性的现实世界应用中，视觉基础已经成为应用多模态大型语言模型（MLLMs）的瓶颈，尽管在提高一般能力方面取得了显著进展。

所以作者从视觉中心的角度出发，评估了多种视觉表征方式，并开发了一个新的多模态学习评估协议和基准测试“CV-Bench”。主要发现包括：

1）视觉表征的探索：研究了多种视觉编码器及其组合，以找出最有效的视觉表征方法。

2）连接器设计：设计了一种新的动态且具有空间感知的连接器，该连接器能更有效地将视觉特征与语言模型整合，同时减少了代币的数量。

3）指令调整数据的策略：从公共来源中策划了高质量的视觉指令调整数据，强调了分布平衡的重要性。

4）指令调整的策略和实践：讨论了指令调整的策略和实践方法。

5）基准测试：分析了现有的MLLM基准测试，将它们分为四个直观的组别，并引入了新的以视觉为中心的基准测试“CV-Bench”。

这项研究不仅提高了作者对于多模态系统中视觉表征的理解，还为未来视觉表征的发展和多模态系统的应用提供了宝贵的指导，作者给出了寒武纪1号研究的结构，主要围绕这五个进行展开：

视觉表征
连接器的设计
指令微调数据
指令调整的配比
各种基线测试。

通过Cambrian-1项目，研究团队提供了模型权重、开源代码、数据集和详细的模型训练及评估方法，旨在加速开放研究社区的研究进展，并推动视觉表征学习与多模态系统研究的发展。

在这里插入图片描述
图1｜MLLMs的视觉表示学习和评估协议。我们在传统协议和使用MLLMs评估视觉表示之间画了平行线。MLLMs通过视觉问答解决各种现实世界的感知任务。底部部分强调了Cambrian-1研究的五个关键支柱©️【深蓝AI】编译

图一通过详细描述视觉和语言模型的结合方式，强调了在实际应用中评估和优化多模态大型语言模型的重要性。这包括了从预训练的视觉模型的使用到视觉特征与语言模型的集成，以及通过多种数据集和评估任务来测试模型的视觉理解能力。图中还突出了五个关键研究支柱，这些支柱是Cambrian-1研究中的焦点。

2.1 视觉表征学习——评估协议

●预训练视觉模型： 这部分展示了如何使用预训练的视觉模型来学习和评估视觉表征。

●评估方法： 包括线性探测（Linear Probing）和端到端调优（End-to-End Tuning）两种方式，用于评估视觉模型处理和理解视觉数据的能力。

●数据集： 使用不同的数据集进行评估，如ImageNet-1k、COCO、ADE20K等，涵盖分类（CLS）、分割（SEG）和检测（DET）等任务。

2.2 多模态大型语言模型

●预训练视觉模型和连接器设计： 这一部分强调了如何使用预训练的视觉模型，并设计连接器来整合视觉特征与语言模型。

●视觉指令调整： 展示了如何使用语言模型（LLMs）进行视觉指令的调整，以提高模型对视觉内容的理解和响应能力。

●调整数据与配方： 讨论了用于指令调整的数据策划和调整策略，以优化模型性能。

●评估协议： 包括多个与视觉相关的评估任务和基准，如VQA（视觉问答）和其他特定任务，以测试模型的实际应用能力。

3. 相关工作要点

3.1 前期方法介绍

●大型语言模型 (LLM)： 提到了LLM在MLLM中的核心地位，并讨论了通过对这些模型在多模态数据上进行指令调整后的性能增强，特别是在如MMMU和AI2D等基准测试中的表现。同时指出了当前评估系统可能过度依赖LLM的能力，而不足以真正评估视觉感知能力。

●视觉编码器： 除了常用的语言监督模型如CLIP之外，还提到了其他类型的视觉模型，如自监督模型、分割模型、深度监督模型和扩散模型。这些模型在没有文本指导的情况下学习视觉表示，为MLLM提供了更广泛的视觉理解能力。

●多模态连接器： 介绍了几种将视觉编码器的输出映射到LLM令牌空间的技术，包括Resamplers、Q-Formers和MLP投影器。强调了图像分辨率对视觉令牌数量的影响，以及为了处理高分辨率图像而探索新的连接器设计的必要性。

●指令调整数据： 讨论了视觉指令调整数据的重要性和收集难度。通过转换现有的视觉问答（VQA）基准测试为指令调整数据，来提高MLLM的性能。此外，还提到了开发互联网数据收集引擎以填补数据缺口的尝试。

●评估与基准测试： 指出了现有基准测试在评估多模态能力时的局限性，尤其是在视觉中心评估上的不足。提议通过重新制定经典视觉任务来创建新的基凑，以更全面地测试和评估MLLM的多模态能力。

这些技术细节不仅展示了MLLM的复杂性，还揭示了在实现更高级的多模态交互和理解方面所面临的技术挑战和研究方向。

3.2 现有多模态基础模型一览

在这里插入图片描述
图2｜各种视觉模型、目标和架构的示例©️【深蓝AI】编译

这张图展示了不同的视觉模型、目标和架构，涵盖了从传统的分类标签监督学习到语言监督和自监督学习方法。通过这些多样化的技术，作者能够更加深入地理解和处理图像数据，实现从简单分类到复杂场景重建的各种功能。具体来说，这些示例涵盖了多种类型的监督和自监督学习方法，在图像识别和处理领域中的应用，包括：

◆Class Label Supervised (ImageNet-1K )：

●描述：使用传统的分类标签监督学习方法（例如ImageNet-1K数据集）进行训练的模型。

●图中示例：显示了一个牛仔，图像旁边列出了相关的对象标签（如Cowboy Hat, Cowboy Boot等）。

◆Language Supervised (CLIP)：

●描述：利用语言描述来监督学习的模型（如OpenAI的CLIP），能够理解图像内容与文本描述之间的关联。

●图中示例：示意图显示一个牛仔骑马的场景，并配有描述性文本：“A cowboy rides a horse at a rodeo.”

◆SSL-Contrastive (DINOv2)：

●描述：使用自监督对比学习方法，不依赖于标签的监督，通过比较正负样本来学习特征。

●图中示例：展示了正样本（Pos.）和负样本（Neg.）的对比。

◆SSL-Masking (MAE)：

●描述：自监督遮蔽方法，通过遮蔽图像的部分并尝试重建来学习图像特征。

●图中示例：显示了部分遮蔽的图像及其重建。

◆Diffusion (Stable Diffusion)：

●描述：扩散模型用于生成复杂的图像，通过逐步添加噪声和学习去噪声过程来生成新的图像。

●图中示例：展示了生成的噪声图像。

◆Depth Supervised (MiDaS)：

●描述：使用深度监督学习模型，能够从图像中预测对象的深度信息。

●图中示例：展示了一幅图像的深度图。

◆Segmentation Supervised (SAM)：

●描述：使用分割监督学习模型，专注于从图像中划分出不同的区域和对象。

●图中示例：显示了图像的分割结果，不同颜色代表不同的区域。

4. 通过MLLMs 评估视觉表征要点

当前的多模态大型语言模型（MLLMs）主要依赖于CLIP作为视觉编码器，因为它与语言预对齐，易于适应LLM令牌空间。然而，强大的语言先验可能是一把双刃剑，它们虽然补偿了在学习有效的视觉表示方面的不足，但也减少了从广泛的视觉表示学习研究中获得的洞察。

这一部分是作者团队做不同基于视觉中心的多模态大语言模型的实验，在不同视觉任务背景下评估多模态大语言模型的视觉表征，作者团队有了以下八个发现：

4.1 多模态大模型的视觉基准分析

发现1：大多数基准测试不能恰当地测量以视觉为中心的能力，而且能够测量的基准样本数量非常少。

◆背景

为了有效评估视觉表征和多模态大型语言模型（MLLM），研究者选用了一套广泛使用的基准测试，这些基准测试是从最近的MLLM研究中选取的交集。通过这些测试，研究者希望准确评估这些模型的多模态能力。

◆关键步骤

●基准选择和训练：选择了一组广泛的基准，并利用不同的视觉模型背景进行了MLLM的训练。

●性能比较：分析了MLLM在启用和禁用视觉输入的条件下的性能，同时比较了随机猜测的结果。

●基准聚类：通过主成分分析（PCA）对不同基准的性能进行了聚类，以揭示它们之间的相关性和差异。

◆分析Finding

●基准效能：某些基凘如SQA-I3和MMMU的得分显示，图像输入对结果的影响不大，这表明这些测试可能更依赖于语言模型的基础能力，而非多模态结合。

●语言偏见：TextVQA和GQA显示出较大的语言偏见，即在禁用视觉的情况下与随机猜测相比有显著的得分差异。

●视觉重要性：在MMVP和MME Perception基准上，禁用视觉输入的表现甚至不如随机猜测，突显了强烈的视觉依赖性。

●样本数量和质量：视觉中心的基准测试样本数量不足，且不涵盖如深度和空间感知等关键视觉元素，这限制了这些基准的评估能力和鲁棒性。

在这里插入图片描述
图9｜Cambrian-7M：用于MLLM的大规模精选指令微调数据集。左：内圈显示了Cambrian-10M的原始分布。外圈显示了精选的Cambrian-7M；右：Cambrian数据集中所有的数据源以及在数据筛选中被过滤的数据源©️【深蓝AI】编译

*基准测试的选择和分析 (图表9&图2)：选择多种来自不同模型家族的视觉背景，以确保覆盖广泛的视觉处理能力。这些背景的多样性有助于全面评估MLLM在处理不同类型视觉信息时的效能。

在这里插入图片描述
图3｜左：在各种基准测试中，启用和禁用视觉输入的MLLMs性能比较；基准测试按启用和禁用视觉时的平均分差异排序。右：基于性能指标的基准测试簇的主成分分析，气泡大小对应基准测试规模。研究者将簇标记为绿色的“通用”、黄色的“知识”、红色的“图表与OCR”和蓝色的“以视觉为中心”©️【深蓝AI】编译

*视觉输入的影响分析（图3-左)：这张图直观地展示了视觉输入对于特定基准测试性能的影响。例如，SQA-I3和MMMMU显示出视觉输入对性能的影响较小，而TextVQA和GQA则显示出较大的性能差异，说明了测试的语言偏见和视觉依赖性。

*基准测试的聚类（图3-右）：通过聚类分析，可以看出不同基准测试之间的相关性和差异，从而更好地理解MLLM在各个领域的性能表现。

在这里插入图片描述
表9｜展示了23种不同视觉背景模型的列表，这些模型被用于训练MLLM©️【深蓝AI】编译

在这里插入图片描述
表10｜综合表现和评估：提供了在所有选定基凘上MLLM的具体表现数据，使得可以量化比较不同模型和配置下的性能©️【深蓝AI】编译

4.2 寒武纪视觉中心基准

发现2：现有的视觉基准可以有效地转换为视觉问答（VQA）问题，这有助于评估MLLM在视觉中心领域的能力。

◆背景

传统的视觉中心基准测试往往无法全面评估多模态大型语言模型（MLLM）的视觉理解能力。为了解决这一问题，研究者们引入了Cambrian Vision-Centric Benchmark（CV-Bench），这是一个包含2638个手工检查样本的基准测试，其样本数量是现有某些基准的3.5到8.8倍。

◆关键步骤

●基准的构建：CV-Bench通过重新利用标准视觉基准来评估模型在多模态环境中的经典视觉任务表现。

●任务设计：包括空间关系和物体计数来评估2D理解；深度顺序和相对距离来评估3D理解。

●问题构建和审查过程：程序化生成问题，并手动检查每个问题，以消除不清晰、含糊或错误的问题。

◆分析Finding

通过CV-Bench的设计和实施，研究者们能够更精确地评估MLLM的2D和3D视觉理解能力。这一基凘的引入不仅增加了样本的数量，还通过结合自然语言问题来探索模型的基础视觉理解，从而使得评估更为全面和深入。

在这里插入图片描述
图4｜展示了CV-Bench在2D和3D理解任务中的评估方法©️【深蓝AI】编译

在这里插入图片描述
表1｜列出了不同任务的详细评估结果和模型在每个任务上的表现©️【深蓝AI】编译

结合这些图表和表格，作者可以更直观地看到CV-Bench如何通过具体的任务来评估和展示MLLM的多模态视觉理解能力。图表和表格展示了模型在处理复杂视觉情境中的效果，强调了通过精确和系统的测试方法来提升基准测试的质量和效果。

4.3 指令微调手册

发现3：两阶段训练有益；更多的适配数据进一步提升了结果&解冻视觉编码器普遍有益。

发现4：语言监督模型总是受益；SSL模型在视觉中心基准测试中尤为受益。

◆背景

在多模态大型语言模型（MLLMs）的训练过程中，研究者们探索了使用不同的训练策略，如一阶段训练与两阶段训练，及其对模型性能的影响。此外，还考察了在微调阶段冻结或解冻视觉编码器的实践。

◆关键步骤

一阶段与两阶段训练：在这项实验中，使用了不同量的适配数据（0, 0.5M, 1.2M）来先行训练连接器，然后在737K指令调整数据集上解冻并微调连接器和LLM。

冻结与解冻视觉编码器：探究了在微调阶段冻结或解冻视觉编码器的效果，同时评估了这种做法对计算成本和模型性能的影响。

◆分析Finding

通过实验发现，先对连接器进行预训练（两阶段训练法），特别是使用更多的适配数据，能显著提升模型在多个领域的表现。这种训练策略有助于连接器更好地适应后续的指令调整，从而提升整体模型性能。

解冻视觉编码器可以提升模型性能，特别是在视觉中心的基准测试中。尽管这增加了计算成本，但在大多数情况下，性能的提升使得这种策略是有利的。这表明更灵活的视觉编码器可以更好地应对多样化的视觉输入，尤其是在需要强视觉理解的场景中。

在这里插入图片描述
图5｜展示了一阶段与两阶段训练策略的性能对比，以及解冻视觉编码器对各类基准测试的影响©️【深蓝AI】编译

在这里插入图片描述
表9｜列出了使用不同视觉模型和训练策略的实验设置和结果，提供了丰富的数据支持上述发现。这些图表和表格直观地揭示了不同训练策略对MLLM性能的实际影响，帮助理解何种训练方法在何种情况下最有效©️【深蓝AI】编译

4.4 作为视觉标准评估器的多模态大模型

发现5：高分辨率编码器显著提升图表与视觉中心基准的性能，而基于ConvNet的架构对此类任务具有天然优势

发现6：语言监督提供强大优势，但足够的数据和适当的调整可以缩小与自监督方法的性能差距。

◆背景

在本节中，作者探讨了多模态大型语言模型（MLLMs）作为视觉表示评估器的功能，尤其是在非传统基准如ImageNet-1k线性探测之外的应用。

作者使用1.2M的适配数据和737K的微调数据，并在两阶段指令调整设置中冻结视觉编码器，以便比较尽可能多的模型。

◆关键步骤

●实验设置：选择了冻结视觉编码器的方法，对比了语言监督模型与非CLIP模型在各类基准测试上的表现。

●数据和基准测试：参考第3.1节详述的基准测试，计算每个类别的平均性能，并在图6中可视化结果（详细结果见附录D）。

◆Finding分析

高分辨率模型在处理图表和视觉中心基准测试时表现出色，而基于ConvNet的架构由于优越的高分辨率图像处理能力，特别适合这些任务。这表明，在处理复杂视觉内容时，选择合适的视觉编码器极为重要。

尽管DINOv2作为自监督模型在训练数据量上不及CLIP，但通过增加微调数据量到5M，并解冻视觉后端，DINOv2基础的MLLM在某些基凘上甚至超过了CLIP模型。这表明，通过适当的调整和大量数据，自监督模型可以达到与语言监督模型相当的性能水平。

在这里插入图片描述
图6｜显示了DINOv2、其他自监督模型与语言监督模型之间的性能比较©️【深蓝AI】编译

在这里插入图片描述
图7｜展示了在5M数据设置下，解冻视觉后端的DINOv2基础MLLM与冻结视觉后端的CLIP模型之间的性能对比，揭示了增加数据量和调整策略对性能的积极影响©️【深蓝AI】编译

4.5 多种视觉编码器融合

发现7：结合多个视觉编码器，包括自监督视觉模型，可以提升MLLM在多种基准测试中的性能，特别是在视觉中心任务上。

◆背景

本部分研究了结合多种视觉编码器以利用它们独特的表征，目的是构建一个更强大的多模态大型语言模型（MLLM）。这种方法基于不同视觉编码器在MLLM性能的不同方面表现出色的观察。

◆关键步骤

●数据处理：所有视觉编码器的输出都被插值到固定数量的视觉标记（576个），以统一数据格式。

●特征组合：按照类似于A-MoF方法，将这些视觉标记沿特征维度进行连接。

●性能评估：通过在表3中展示，观察到随着模型数量的增加，性能持续改善。

◆Finding分析

添加非语言监督模型（如DINOv2）可以改善基准性能，尤其是在视觉中心任务上。即使在OCR基准测试中，结合DINOv2也显示出益处。这突显了自监督学习模型在补充语言监督模型以实现坚固的多模态理解方面的重要性。

在这里插入图片描述

综上，图6和表3显示了不同视觉编码器结合的效果，验证了在不同任务上的性能提升。详细结果和配置可在附录D.3中查阅。

5. Spatial Vision Aggregator (SVA)：一种新的多模态大模型连接器要点

在这里插入图片描述
图8｜空间视觉聚合器（SVA）©️【深蓝AI】编译

图中展示了Spatial Vision Aggregator (SVA) 的设计，旨在整合多个视觉编码器的特征，并防止插值引入的信息丢失。其核心思路是使用一组可学习的潜在查询通过交叉注意力层与多个视觉特征进行交互。具体来说，这种方法包含两个新的视觉中心设计原则：

1）通过明确定义查询中每个token的聚合空间，引入空间归纳偏差。

2）在LLM层之间多次聚合视觉特征，使模型能够反复访问和整合必要的视觉信息。

这种新公式灵活地适应具有不同特征分辨率的多个视觉编码器，同时在聚合过程中保持视觉数据的空间结构，并将其与LLM集成。

为通过交叉注意力促进信息聚合，作者创建了一个C维度的可学习潜在token $\in \mathbb{R}^C$ ，并将其重复 $\times L$ 次以形成一个2D网格，作为查询 $\in \mathbb{R}^{L^2 \times C}$ 。来自 $N$ 个视觉编码器的视觉特征集 $F$ 作为上下文（即键和值）。作者确保每个视觉编码器的输出分辨率是 $L$ 的倍数。正式地，第 $k$ 个视觉编码器的特征图 $F_k$ 的分辨率为 $m_k L \times m_k L \times C$ ，其中 $m_k$ 是正整数倍数， $L$ 是具有隐藏维度 $C$ 的可学习2D网格的高度/宽度。

5.1 SVA: Spatial Inductive Bias and Multi-layer Aggregation in Vision-LLM Integration

为了保持交叉注意力期间的空间结构，作者将查询中的每个token与所有视觉编码器中特征图的特定子区域对齐。形式上，查询 $x_{i,j}$ 中位于第 $i$ 行和第 $j$ 列的token对应于第 $k$ 个视觉特征图的子区域 $F_k [m_k \cdot i : m_k \cdot (i + 1), m_k \cdot j : m_k \cdot (j + 1)] \in \mathbb{R}^{m_k^2 \times C}$ 。因此，token $x_{i,j}$ 通过交叉注意力聚合来自 $N$ 个视觉编码器的总共 $\sum_{k} m_k^2$ 个特征（见图8-左）。

更新的查询向量 $q_{i,j}^* \in \mathbb{R}^{1 \times C}$ 在位置 $(i, j)$ 处计算为：

$q_{i, j}^* = \text{softmax} \left( \frac{q_{i, j} \cdot [k_{i, j, 1}, k_{i, j, 2}, \ldots, k_{i, j, N}]^\top}{\sqrt{C}} \right) [v_{i, j, 1}, v_{i, j, 2}, \ldots, v_{i, j, N}]$

其中，

$q_{i, j}^* = \text{softmax} \left( \frac{q_{i, j} \cdot [k_{i, j, 1}, k_{i, j, 2}, \ldots, k_{i, j, N}]^\top}{\sqrt{C}} \right) [v_{i, j, 1}, v_{i, j, 2}, \ldots, v_{i, j, N}],$

$k_{i, j, k} = W_K^k F_k [m_k \cdot i : m_k \cdot (i + 1), m_k \cdot j : m_k \cdot (j + 1)] \in \mathbb{R}^{m_k^2 \times C},$

$v_{i, j, k} = W_V^k F_k [m_k \cdot i : m_k \cdot (i + 1), m_k \cdot j : m_k \cdot (j + 1)] \in \mathbb{R}^{m_k^2 \times C}.$

这里， $v_{i, j, k} = W_V^k F_k [m_k \cdot i : m_k \cdot (i + 1), m_k \cdot j : m_k \cdot (j + 1)] \in \mathbb{R}^{m_k^2 \times C}$ 是在位置 $(i, j)$ 处的查询向量，通过查询投影矩阵 $W_Q \in \mathbb{R}^{C \times C}$ 计算得到。键向量 $k_{i,j,k}$ 和值向量 $v_{i,jk}$ 分别通过每个视觉编码器 $k$ 的键和值投影矩阵 $W_K^k \in \mathbb{R}^{C \times C}$ 和 $W_V^k \in \mathbb{R}^{C \times C}$ 计算得到。由于 $\sum_{k} m_k^2$ 个特征被聚合到一个token中，作者有效地减少了token的数量。

虽然作者的方案有效地聚合了来自多个视觉编码器的特征，但对于高分辨率输入（较大的）或多个视觉编码器（较大的 $N$ ）来说，仍然存在潜在的信息丢失问题。在这种情况下，单个token在聚合期间需要处理大量的上下文信息。为防止这种情况，作者允许在整个LLM层中多次进行交叉注意力，从而允许持续访问未压缩的视觉信息（见图8-右）。

为了灵活调节容量，作者引入了两个超参数D和G，它们分别表示交叉注意力层的数量和在视觉模型和LLM之间使用的可学习查询的不同组。直观上，更大的D允许更多堆叠的交叉注意力操作以促进聚合过程，而更大的G允许捕获更广泛的聚合模式。这些查询组分别并行地聚合视觉信息，然后连接形成LLM的最终视觉tokens。在LLM层内的交叉注意力层中，D和G始终设置为1。

作者通过使用四个视觉编码器的最佳组合结果和Vicuna-1.5-7B基本LLM展示了SVA模块的有效性。具体来说，作者使用了四个视觉编码器的组合：OpenAI CLIP ViT-L/14@336, SigLIP ViT-SO400M/14@384, OpenCLIP ConvNeXt-XXL@1024和DINOv2 ViT-L/14@518。作者将作者的方法与两个强大的基线进行比较：

1）基于连接的

2）重采样器

它们利用了类似的交叉注意力形式，但缺乏空间归纳偏差和多层次的视觉聚合。作者包括两个SVA模块的变体。标准的“SVA”使用D=3，G=1，并在LLM内部插入交叉注意力块，层步长为3。为了隔离空间归纳偏差的优势，作者团队还提出另一个SVA变体“SVA-no-multi-agg”，它不在LLM内部添加交叉注意力块，并将D设置为3，G设置为3。表4显示，SVA在所有基准类别中都优于两个基线，在需要高分辨率特征理解的OCR和图表类别中显著提升。相比之下，缺乏空间归纳偏差的重采样器在通过全局交叉注意力将来自各种视觉塔的连接tokens压缩到有限数量的可学习查询中时遇到了困难。

作者通过进一步的消融实验，以评估不同设置对高分辨率视觉理解的影响。研究使用了OpenAI CLIP ViT-L/14@336和OpenCLIP ConvNeXt-L/1024作为基础模型组合，重点关注OCR和图表类别。结果表明，通过增加超参数D或G的容量，可以提高性能，并且在LLM内部增加交叉注意力层、允许跨多层次的视觉聚合也能增强性能。更详细的实验设置和分析在附录F中提供。

5.2 视觉特征深度聚合

发现8：空间归纳偏差和LLM与视觉特征之间的深度交互有助于更好地聚合和压缩视觉特征。

◆背景

实验结果显示，增加D或G的容量可以提高模型在OCR和图表类别上的性能。此外，在LLM内部增加交叉注意力层并允许多层次的视觉聚合，也能进一步增强性能。这表明，多层次的聚合策略能够更有效地处理高分辨率的视觉特征，并保持其空间结构。

◆关键步骤

为了验证多层次聚合的效果，研究者进行了消融实验，调整了两个超参数D和G，分别代表交叉注意力层的数量和可学习查询的不同组数。通过增加这些超参数的容量，研究者能够测试多层次视觉聚合的影响。

◆Finding 分析

●空间归纳偏差：通过明确每个查询token的聚合空间，模型能够在聚合过程中保持视觉数据的空间结构，从而减少信息丢失。

●深度交互：在LLM内部多次进行交叉注意力操作，使模型能够反复访问和整合未压缩的视觉信息，进一步增强模型的性能。这种多层次的聚合策略能够处理更多的上下文信息，使得模型在处理高分辨率输入或多个视觉编码器时表现更佳。

6. 多模态大语言模型（MLLMs）训练的指令调优数据要点

6.1 数据收集

●收集现有数据源中的指令调优数据：多模态（视觉）指令调优数据比语言数据更稀少且难以收集。为了解决这一问题，研究者使用了现有的多模态基准和数据集，例如视觉问答（VQA）和OCR数据。同时，为了帮助维持模型的对话能力，他们还收集了一小部分高质量的仅语言指令跟随数据。数据被分类为：一般对话、OCR、计数、代码、数学、科学和仅语言数据。

●目标互联网数据收集引擎：由于某些类别（如科学）数据源很少且每个源的样本有限，研究者引入了一个数据引擎，通过互联网自动收集针对特定任务的视觉数据。该引擎选择目标领域和子领域，例如“物理学”，并使用LLM（如GPT-4）识别主题（如“牛顿定律”）。然后，它在可靠来源（如维基百科）上搜索每个主题的图文对，并生成指令类型的问答对。这些问答对和图像构成了VQA数据集。这种方法生成了大量可靠的科学数据，显著增加了数据池的多样性，共生成了161k科学相关数据点，比之前的所有数据源总和多400%。

●Cambrian-10M数据集：研究者创建了一个包含约9784k数据点的大型指令调优数据池，称为Cambrian-10M。图9展示了其组成。

图9｜Cambrian-7M：用于MLLM的大规模精选指令微调数据集。左侧：内圈显示了Cambrian-10M的原始分布。外圈显示了精选的Cambrian-7M；右侧：Cambrian数据集中所有的数据源以及在数据筛选中被过滤的数据源©️【深蓝AI】编译

▲图9｜Cambrian-7M：用于MLLM的大规模精选指令微调数据集。左侧：内圈显示了Cambrian-10M的原始分布。外圈显示了精选的Cambrian-7M；右侧：Cambrian数据集中所有的数据源以及在数据筛选中被过滤的数据源©️【深蓝AI】编译

6.2 数据整理

●Cambrian-10M数据集的初步整理：Cambrian-10M是一个来自多种数据源的大型指令调优数据池，类别之间的数据比例不平衡。为了改进数据平衡和调整数据比例，研究者进行了初步研究。

●数据平衡：研究者根据先前的工作设置了单一数据源的数据点数量阈值t，并绘制了从尾到头的累积计数图（见图10）。选择了t=150k, 250k, 350k, 和450k，并在表6中观察到了拐点效应，发现250k和350k之间的阈值对Cambrian-10M效果最佳。

●数据比例：与以往通过网络抓取噪声图文对的VLM数据整理工作不同，Cambrian-10M专为视觉指令调优设计。研究者进行了一系列试验，考察了不同数据比例对下游性能的影响，结果显示平衡的一般对话、OCR和语言数据比例至关重要（见图11）。过多的OCR数据比例会影响一般VQA和视觉中心的性能。

●Cambrian-7M数据集：通过对Cambrian-10M应用数据过滤和确定的数据比例，研究者创建了一个更小但质量更高的数据集Cambrian-7M。表7显示，尽管样本减少，但Cambrian-7M展示了更好的性能。

6.3 通过系统提示缓解“回答机器现象”

●问题现象：研究者观察到，一个训练良好的MLLM在VQA基准测试中表现出色，但缺乏基本的对话能力，通常会输出简短的回答。这种现象源于基准测试问题通常需要单一选项、选择或单词的回答，与实际应用中的广泛使用情况不同。

●系统提示解决方案：为解决这个问题，研究者在训练中加入了额外的系统提示，例如“用一个单词或短语回答问题。” 在这些系统提示的帮助下，模型在基准测试性能不变的情况下，对话能力显著提高。例如，在图12中，带有系统提示的模型在回答问题时产生了更长、更有参与感的回答。

●对话能力评估的重要性：研究者强调，尽管在基准测试中表现良好很重要，但同样重要的是确保模型能够进行有意义和自然的互动。整体用户体验和模型的对话能力是关键，一个在基准测试中表现出色但在对话中表现不佳的模型无法满足实际应用的需求。

7. Cambrian-1：多模态大语言模型的最新性能表现要点

这部分内容总结了利用之前所有研究成果训练的多模态大语言模型（MLLMs——Cambrian-1）的性能表现。具体内容包括：

7.1 训练模型

研究者使用了不同规模的LLM作为基础模型，包括LLaMA-3-Instruct-8B、Vicuna-1.5-13B和Hermes-2-Yi-34B。视觉组件结合了四个模型：OpenAI CLIP ViT-L/14@336、SigLIP ViT-SO400M/14@384、OpenCLIP ConvNeXt-XXL@1024和DINOv2 ViT-L/14@518，通过空间视觉聚合器（SVA）进行整合。在连接器预训练中使用了250万适配器数据，并使用Cambrian-7M数据集进行了指令调优。模型在之前分类的基准测试中进行了评估，结果展示在表8和图13中。

在这里插入图片描述
表8｜Cambrian-1与其他领先的MLLM框架的比较。Cambrian-1在多个基准测试中表现优异，相比专有模型（如GPT-4V、Gemini和Grok-1.5），表现出竞争力。尽管仅使用576个视觉令牌，但Cambrian-1在OCR与图表和以视觉为中心的基准测试中表现优于Mini-Gemini-HD和LLAVA-NeXT，这两个模型分别使用2880个令牌©️【深蓝AI】编译

7.2 结果和比较

Cambrian-1在许多基准测试中超过了开源模型如LLaVA-NeXT和Mini-Gemini。得益于SVA，Cambrian-1在需要高分辨率图像处理的任务中表现出色，即使只使用了576个图像token，大约是LLaVA-NeXT和Mini-Gemini使用token数量的1/5。Cambrian-1在一些基准测试中的表现也可与最佳专有模型（如GPT-4V、Gemini-Pro和MM-1）媲美。图14展示了一些示例，证明该模型能够有效关注图像中的细节，尽管只使用了576个token。

7.3 后处理和准确性评估

研究者强调了后处理模型输出和评估其准确性的重要性。例如，如果正确答案是“(a) Apple”，而模型输出“Apple”，就需要识别该答案为正确。研究者使用模糊匹配来评估模型输出的准确性，并进行了消融研究以验证该方法的可靠性。研究发现，模糊匹配提供了可靠的判断。更多详细信息可以在附录G.2中找到。

——编辑的头脑风暴——

在我们深入剖析了Cambrian-1模型之后，现在让我们来点有趣的，开启一场头脑风暴吧！这不仅仅是为了理解这个模型目前的表现和应用，更是为了探索它未来可能达到的新高度。在这次头脑风暴中，我打算和大家一起讨论一些创意满满的点子：我们可以怎样通过技术革新和调整策略来提升模型的表现呢？在实际应用中遇到的种种挑战，我们又该如何应对？更有意思的是，如果将Cambrian-1推广到一些新的、还没太多人涉足的领域，会有哪些可能性呢？

1」方法的使用与改进

优化视觉编码器集成：

●当前方法：文章中评估了超过20种视觉编码器，探索不同视觉表示的效力。

●增强：考虑采用最新的视觉Transformer (ViT)模型，融合不同尺度的ViT以增强模型对不同分辨率输入的适应性，并探索基于自适应采样的令牌化方法，优化处理速度和准确性。

提升模型的空间感知能力：

●当前方法：使用空间视觉聚合器（SVA）整合高分辨率视觉特征。

●增强：开发基于图神经网络（GNN）的更复杂空间感知算法，以更精确模拟对象间的空间关系，提高模型性能和解释性。

2」解决现有不足

提高实时性能：

●当前不足：大规模多模态模型在实时应用中的响应延迟。

●解决方案：实施模型剪枝和量化技术，减少计算负担和内存需求，优化边缘设备部署和实时处理能力。

数据源平衡和分布：