LEO：多模态LLM能力升级，与3D世界交互更进一步！

本文链接：https://blog.csdn.net/m0_59164520/article/details/141437282

在人工智能和神经科学领域，构建一个能够处理各种综合任务的通用模型一直是研究者们长期追求的目标。这种模型应该能够像人类一样，不仅在二维空间中表现出色，更能深入理解和交互于复杂的三维物理世界。然而，现有的通用模型在二维领域的成就虽然显著，但它们在三维空间的理解上却显得力不从心，这成为了它们在解决现实世界任务和接近人类智能水平时的一大障碍。为了克服这一限制，文章提出了一个核心问题：**如何使智能体不仅能够全面理解真实的三维世界，还能与之进行有效的交互？**在探索这一问题的过程中，文章发现智能体的发展面临三个主要的挑战：

数据集的缺乏：与二维数据相比，三维数据的收集成本更高，这限制了模型训练和验证的广度和深度。
统一模型的缺失：以往的三维视觉语言（3D VL）模型并没有经过大规模的统一预训练，也没有有效的微调策略，这些模型通常基于强先验设计，而缺乏灵活性和泛化能力。
学习策略的不足：在视觉语言学习（VLA）的潜力和大型语言模型（LLM）对三维任务的适应性方面，还有很多未被充分探索的问题。

为此，北京通用人工智能研究院通用视觉实验室（BIGAI）的研究团队引入了多模态通用智能体LEO，它能以自我视角的2D图像、3D点云、文本作为任务输入，在3D环境中处理综合性任务。LEO展示了具有统一任务接口、模型架构和目标的感知、定位、推理、计划和行动能力。

LEO采用了两阶段的训练方案，即**（i） 3D 视觉-语言（3D VL）对齐和（ii） 3D 视觉-语言-动作（VLA）指令调优**。文章收集的大规模数据集包括各种对象级和场景级任务，这些任务需要对 3D 世界有深入的理解并与之交互。值得注意的是，文章精心设计了一个LLM辅助流水线来生成高质量的3D VL数据，并使用场景图和以对象为中心的思维链(O-CoT)方法来提示LLM。为了进一步加强质量控制，文章设计了一系列通过正则表达式匹配和场景图检索的改进程序。文章证明了该方法在很大程度上丰富了数据的规模和多样性，同时减轻了LLM生成数据时的错误率。文章在不同的3D任务上定量地评估LEO并进行消融研究，包括3D字幕描述、3D问答、定位问题回答、具身导航和机器人操作设计。

在这里插入图片描述

模型

下面一起来看看LEO的模型是如何设计的吧。LEO主要做了两件事，第一件事是将自我视角的二维图、全局视角的三维图、文本指令转化为多模态输入，并用统一架构输出文本回复和具体动作命令。具体来说，首先将所有不同模态的数据转换为一系列符号（如下所示），然后用预训练的LLM来处理这些序列:

进而，LEO的学习过程被表述为一种特定的语言建模任务。具体来说，它使用了GPT（Generative Pre-trained Transformer）风格的自回归语言建模方法，即通过自回归的方式（即依次生成序列中的每个元素，每个元素的生成依赖于前面已经生成的元素）来预测文本序列的下一个词或字符。GPT自回归语言建模时输入一个给定前缀的上下文中，并指导后续文本的生成。综上所述，通过将LEO的学习过程采用前缀语言建模的方法，使其能够根据给定的前缀生成适当的响应或输出。

LEO做的第二件事就是利用预训练的大型语言模型(LLM)作为下游任务的强大先验知识，从而泛化应用在多种通用化人工智能任务上（包括3D字幕描述、3D问答、定位问题回答、具身导航和机器人操作设计等）。

LEO通过一个自我视角的2D图像编码器来感知实体视图，通过一个以物体为中心的3D点云编码器来感知他人视角的全局视图。这种感知模块可以灵活适应各种具身环境，增强三维推理能力。编码的视觉标记与文本标记相互交织，形成统一的多模态任务序列，该序列进一步作为仅解码器的LLM的输入。LLM配备了包含文本和动作标记的词汇表，可以同时生成对各种任务的回复。因此，所有的任务都被表述为序列预测，从而实现了统一的训练目标。

训练和推断

文章以前缀语言建模的方式制定了LEO训练跟随的目标函数。对于标记序列s和第B个批次，文章通过以下函数来优化LEO：

其中，s_prefix表示(1)中的前缀标记。在训练过程中，文章冻结了预训练的3D点云编码器和LLM，并微调了2D图像编码器、Spatial Transformer和LoRA参数。LEO总共有约7B个参数，其中约142M个参数将被调谐。在推理过程中，文章使用光束搜索来生成文本回复。

数据集

在展示训练结果之前还要说明数据集的划分以及一些训练细节。由于LEO是一个接受多模态输入并遵循指令的通用智能体，因此文章采用两阶段训练方法，并将数据分成两组:

(i) LEO-align：侧重于3D 视觉-语言（3D VL）对齐，以弥合3D场景表示与自然语言之间的差距。与BLIP-2类似，文章训练LEO在给定各种3D输入的情况下生成字幕。具体来说，文章收集了三种类型的3D字幕数据:1)对象级字幕，其中文章将3D单个对象与其描述对齐;2)场景中的对象描述，其目标是在3D场景上下文中生成对象的指代表达;3)场景级字幕，重点是用自然语言描述全局3D场景。

(ii) LEO-directive：针对3D 视觉-语言-动作（3D VLA）指令调优，赋予LEO各种泛化能力。文章策划了一套全面的任务，涵盖了从基础场景理解和推理到对话、规划和具体化动作。具体来说，文章引入了：1)3D字幕描述和问题回答——给定3D场景输入，智能体需要生成自然语言回应来描述场景或回答问题;2) 3D对话和任务规划，其中智能体被期望对给定3D场景的复杂指令产生灵活连贯的回复;3)导航和操作，这需要智能体在3D场景中完成各种具身操作任务（embodied acting tasks）。

LLM辅助的3D文本配对数据生成

产生大量LEO-align和LEO - directive数据集的核心是用LLM(即ChatGPT)辅助生成3D文本配对数据，如图二。

能力评估和分析

文章全面评估了包括感知、定位、推理、规划和行动在内的三维任务，展示了LEO的能力。

1 3D视觉语言理解和推理

从智能体自我中心的角度理解和推理对象属性、对象关系和3D场景的其他方面是3D世界中具身通用智能体的基本能力。文章研究了LEO执行3D 视觉语言理解和具体化推理任务的能力。具体来说，文章考虑了三个著名的3D任务：Scan2Cap上的3D字幕描述，ScanQA上的3D问答，以及SQA3D上的3D具体化推理。为了进行定量比较，文章采用了针对特定任务的方法和通用模型，包括:1)3D密集字幕描述的最先进专家模型;2)最先进的3D 问答（3D QA）专家模型;3)任务特定的微调通用模型，如3D-VisTA 和3D-LLM 。据文章所知，与之前的模型形成鲜明对比的是，LEO是第一个可以在统一架构中直接处理上述3D视觉语言任务而无需针对任务进行微调的模型。

结果如表4所示。**LEO在3D密集字幕描述和3D QA任务上明显优于最先进的单任务和特定任务微调模型。**与使用特定任务头部的专家模型相比，文章基于LLM的方法不仅提供了生成开放式回复的灵活性，而且还展示了出色的定量结果。另一方面，考虑到3D-LLM中复杂的特征聚合，文章认为以对象为中心的3D表示是一种简单而有效的选择，可以在利用LLM先验知识的同时将3D场景与LLM连接起来。

2 情景对话和规划

文章预期LEO将支持与人类更复杂的交互，例如，在3D世界中回应复杂的多轮用户指令。为了验证LEO的3D视觉语言的理解和推理能力，文章对3D对话和规划任务进行定性研究，并从LEO - instruction的测试集中使用模型未见过的场景测试。

结果如图A .1所示，LEO能够生成高质量的回复，它具有两个特点：1）精确对应到3D场景：LEO提出的任务规划涉及与3D场景相关的具体对象，以及这些对象相关的合理动作。2）丰富的信息性空间关系。LEO的回答中的实体通常伴随着详细的描述。此类信息有助于在复杂的3D场景中识别特定对象，并为人类提供相当大的帮助。

3 三维世界中的具身动作

为了探索LEO在3D世界中连接视觉语言行为的能力，文章选择了两个典型的具身化AI任务：AI Habitat上的对象导航(ObjNav)和CLIPort上的机器人操作。表5和6中展示了CLIPort操作和对象导航的结果。文章的研究结果如下:1)**在机器人操作方面，LEO的性能可与最先进的性能相媲美，在一些具有挑战性的未知任务上甚至更胜一筹。**特别是，LEO 直接产生运动指令，无需归纳偏差（如热图），展示了 LEO 在学习具体动作方面的巨大能力。

2)在对象导航(ObjNav)中，LEO实现了与基线相当的成功率，并且在MP3D-val上具有更好的SPL，这表明LEO可以利用以物体为中心的3D场景输入(可能提供粗略的全局地图)并采取更短的路径到达目标。此外，HM3Dval上的结果证实了LEO对新场景的零样本泛化能力。值得注意的是，所有基线模型都配备了循环模块，而LEO仅包含截断的过去行动，这可能是成功率较低的原因。

4 更多关于LEO的见解

文章在使用不同的数据配置进行训练时评估LEO，包括精确匹配、句子相似度和人工评级。文章将LEO指令调优而不包含动作任务(w/o Act)的组别作为默认设置。

**是否对齐的影响：**与完成两阶段训练(w/o Act)相比，文章直接对没有对齐阶段的模型进行指令调整(w/o Align)。表7中的结果显示了对齐的一致影响。尤其是在Scan2Cap任务上，对齐的优势显得尤为突出，因为该任务专注于详细的场景理解和相应的字幕描述，而这正是对齐训练所聚焦的核心要点。

专家模型VS通用模型：即使在ScanNet任务上，ScanNet场景专家模型的表现也比w/o Act略差，尤其是在跨场景(3RQA)和任务(3RDialog和3RPlan)的泛化方面。这证明了通用的指令调优具有广泛的场景和任务覆盖的优势。

在这里插入图片描述

是否包含具身化的动作任务对视觉语言能力的影响：文章比较了w/o Act和VLA，它们的不同之处在于是否包含具身化的动作任务。表7的结果显示，加入具身动作任务会导致3D VL任务的性能下降。这可能源于1)语言生成与具身动作预测之间的差距，2)具身动作任务的数据规模不平衡。与VL数据有利于VLA协同训练中的具身动作任务的发现(Brohan等人，2023)相反，文章的观察表明，具身动作任务可能反过来损害视觉语言（VL）能力。如何不断弥合虚拟语言与具身动作任务之间的差距，是进一步探索的重要方向。

**有无对话和规划数据的影响：**与默认模型(表8中的w/ dialog)相反，文章在没有对话和规划数据(w/o dialog)的情况下训练LEO。文章设计了一个包含三种类型问题(可回答、不可回答和NLP)的评估集，并根据人类偏好使用TrueSkill 进行评估。表8的结果证实，在无对话的情况下，出现了更多的错觉(用户对“无法回答”的偏好较低)**和更差的NLP技能。**这可能是因为1)对话数据中的不同对话有助于培养对复杂指令的灵活反应;2)文章的规划数据可以提供基于场景的常识性知识，并鼓励详细连贯的文本。

数据平衡的影响：文章发现不平衡的数据可能会导致LEO产生错觉，例如，当被问到“这个房间里有什么东西吗?”时，它倾向于回答“是”。为了解决这个问题，文章在3RScanQA数据中添加了更多的负面样本（w/ Aug），其中查询了不存在的对象。文章还设计了一个具有不同类型(Yes和No)的对象存在性问题的评估集。表9中的结果表明，文章可以通过平衡调优数据有效地缓解错觉问题。此外，增强3RScan数据的好处可以以零样本的方式转移到ScanNet场景。

5 规模效应分析

文章研究了规模效应，即跟踪测试集上的指令调优损失随着数据规模的增长而增加的现象。除了默认的Vicuna-7B，文章还纳入了两个不同规模的LLM: OPT-1.3B 和Vicuna-13B 。对于Vicuna-7B，文章还探讨了对齐的影响(Scratch未对齐 vs. Aligned对齐)。

从图3的测试损失曲线中，文章发现:1)**LEO的指令调优后符合规模定律：**所有曲线都随数据规模呈对数线性递减。2)扩展LLM的规模可以带来进一步的性能改进：对齐的Vicuna-7B的损失明显低于对齐的OPT-1.3B。相比之下，尽管有持续的改进，但对齐的Vicuna-7B和Vicuna-13B之间的差距似乎不那么显著，这表明如果文章继续扩大LLM的规模，可能会出现饱和。这表明了LEO的规模扩大和扩展数据以匹配模型容量的必要性。3)对齐会带来性能改进：对齐的Vicuna-7B的损耗始终低于未对齐的 Vicuna-7B，这与表7中未对齐的Vicuna-7B的性能较差的结果相一致。

结论

本文提出的智能体LEO将当前LLM的通用能力从文本扩展到三维世界和具身化任务，这是构建具身通用人工智能的关键的第一步。结果表明：

(1) 通过对统一的模型进行与任务无关的指令调优，LEO在大多数任务上达到了最先进的性能，特别是超过了以前的特定任务模型;

(2) LEO精通情景对话和规划，能够产生灵活和连贯的反应;

(3) LEO在导航和操作任务上的性能可与当前最先进的特定任务模型相媲美，具有显著的泛化能力;

(4) LEO的强大性能源于数据和模型两个方面，包括对齐阶段、数据多样性、通用的指令调优和以对象为中心的表征;

(5) LEO表现出的规模效应规律印证了先前的研究结果。文章还展示了定性结果，以说明LEO的多功能性和对3D场景理解的熟练程度。

尽管如此，也存在一些局限性，包括对新场景的泛化，以及视觉语言(VL)学习与具身动作规划之间的尚未弥合的差距。对此，文章提出了几个有前景的改进方向：

(1)通过利用来自更丰富的3D域的更大规模视觉语言(3D VL)数据来增强3D VL的理解能力;

(2)不断弥合3D VL和具身动作之间的差距，文章的实验揭示了他们联合学习的有效性;

(3)在具身通用智能体的背景下研究LLM错觉和对齐问题，特别是考虑到文章的规模分析表明，通过对数据和模型扩大规模可以显著优化模型。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述