【机器人】MIT、UCLA联合发布3D-VLA，重塑机器人的世界观，打造未来智能生活

AI机器人日记

于 2024-04-03 11:51:29 发布

阅读量2k

点赞数 43

分类专栏： AI机器人日记文章标签：机器人 3d 人工智能 gpt 语言模型深度学习机器学习

本文链接：https://blog.csdn.net/2401_84005497/article/details/137339259

版权

AI机器人日记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

非常建议去我公众号里看：AI机器人日记，里面有视频，图片，我直接粘贴过来图片都没了，我懒得弄了。
在这里插入图片描述

【日记导读】本文提出了3D-VLA，一种新型的3D视觉-语言-行动生成世界模型，旨在通过整合3D感知、推理和行动，显著提升机器人在物理世界中的交互能力。

以往的视觉-语言-行动（VLA）模型(RT2, PaLM-E)主要依赖于2D输入，忽略了与3D物理世界的广泛联系，且在行动预测上缺乏对世界动态及其与行动关系的深入理解。相比之下，人类能够借助内在的3D世界模型来模拟未来事件，从而更好地规划行动。3D-VLA通过引入一个新的具身基础模型家族，无缝连接3D感知、推理和行动，解决了这些问题。具体来说，3D-VLA建立在3D大型语言模型（LLM）之上，并通过一系列交互标记与具身环境互动。此外，为了赋予模型生成能力，研究者训练了一系列具身扩散模型，并将它们与LLM对齐，以预测目标图像和点云。

3D-VLA的输入包括3D场景信息、物体和行动描述，输出目标图像、点云以及行动预测。为了验证3D-VLA的有效性，研究者进行了多项实验，包括在具身环境中的推理、多模态目标生成和机器人行动规划等任务。实验结果表明，3D-VLA在这些任务上显著优于现有的2D基线模型，展示了其在现实世界应用中的潜力。

图片

项目主页：https://vis-www.cs.umass.edu/3dvla/

后台回复：3D-VLA，即可得到原文论文和代码链接。

背景、Insight

背景：在人工智能领域，尤其是机器人技术中，对环境的理解和交互能力是实现高级任务的关键。以前的视觉-语言模型（RT2，PaLM-E）主要基于2D图像，这限制了它们在三维空间中理解和操作物理世界的能力。

以前工作的缺点：先前的方法在处理视觉-语言任务时，往往忽略了三维空间的复杂性，导致模型在执行如抓取、放置等需要精确空间定位的动作时表现不佳。此外，这些模型缺乏对动态世界变化的深入理解和预测能力，无法有效地进行未来状态的模拟和规划。

本篇文章的insight：本文的灵感来源于人类在三维世界中的自然交互方式。人类能够通过内在的三维模型来预测和规划行动，这种能力使得人类能够在复杂的环境中灵活地进行物理操作。文章提出了3D-VLA模型，它模仿人类的这种三维理解能力，通过引入3D感知、推理和行动的生成世界模型，使得机器能够更好地理解和操作三维空间。这一创新的方法不仅提高了机器人在具身环境中的交互能力，也为人工智能领域提供了一种新的、更加接近人类认知方式的三维理解框架。

2.方法

2.1构建3D VLA数据集

现有机器人数据集在3D信息方面的不足，特别是在支持3D感知、推理和行动任务方面的数据稀缺。为了训练和验证3D-VLA模型，需要一个包含丰富3D注释的数据集，这些注释能够帮助模型学习如何在三维空间中理解和操作物体，所以需要构建一个3D VLA数据集。

图片

数据集中的例子

如何构建数据集：

数据收集：从多个来源收集数据，包括机器人操作数据集和人类与物体互动的数据集（谷歌Open-X-embodiment, RH20T）。这些数据集可能包含真实世界和合成数据。

深度估计和光流估计：对于缺乏深度信息的视频数据集，使用深度估计算法（如ZoeDepth）来估计每一帧的深度信息。同时，使用光流估计算法（如RAFT）来捕捉视频中物体的运动。

3D注释生成：利用现有的文本指令和深度信息，生成3D边界框、目标图像、深度图和点云等3D相关注释。这些注释通过预训练的模型（如Grounded-SAM）和自然语言处理工具（如spaCy）来提取。

指令模板和ChatGPT提示：

指令模板（Instruction Templates）：指令模板是一种预定义的文本格式，用于生成结构化的指令和问题。这些模板包含了特定的占位符，如、、和，这些占位符在实际应用中会被具体的3D场景信息、物体名称、位置和动作指令所替代。
例如，一个模板可能是这样的：“将从移动到<new_location>”。通过替换这些占位符，可以生成大量的、针对性的指令，用于训练模型理解和执行不同的物理操作任务。

ChatGPT Prompt设计：在构建数据集时，作者使用ChatGPT来生成更自然、更多样化的指令和答案。为了指导ChatGPT生成符合需求的数据，作者提供了一些指令模板和少量的人工编写的示例作为提示（prompts）。这些提示作为输入，ChatGPT会根据这些信息生成更加丰富和多样化的文本描述，这些描述不仅包括了具体的物理操作指令，还可能包括对场景的描述、任务的目标和可能的行动后果等。

图片

比如假设我们有一个3D场景，其中包含一个机器人手臂、一个桌子和几个不同颜色的球。使用指令模板和ChatGPT提示，我们可以生成以下的训练数据示例：指令模板:“将球从<start_location>移动到<end_location>。” 具体描述:“将绿色球从桌子的左边移动到右边。” 在这个例子中，、<start_location> 和 <end_location> 是占位符，它们在实际应用中会被具体的信息所替代。
例如，如果场景中有一个绿色的球位于桌子的左侧，并且我们希望机器人将其移动到桌子的右侧，那么这个指令就会是：(生成的指令):"将绿色球从桌子左侧移动到右侧。"这个指令不仅告诉了机器人需要执行的具体动作，还提供了场景中物体的初始位置和目标位置，帮助机器人理解任务的上下文。通过这样的训练数据，3D-VLA模型可以学习如何根据具体的3D场景和语言指令来规划和执行动作。

通过这样的构建过程，数据集不仅支持了3D-VLA模型的训练，还为模型提供了执行各种具身任务所需的丰富3D环境理解能力。

2.2 3D Vision-Language-Action Generative World Model

图片

以下是3D VLA模型的核心架构和关键组件，这些组件共同实现了对3D环境的理解和操作。

2.2.1 3D-LLM作为骨干网络

3D-VLA的构建基于一个3D大语言模型（3D-LLM），该模型能够处理和生成与3D场景相关的语言描述。这个3D-LLM作为骨干网络，为模型提供了对3D空间和物体的基本理解。

图中的Q-Former即为3D-LLM是因为它是专门为处理3D场景和对象而设计的。Q-Former在3D-VLA模型中的作用包括：处理3D查询：Q-Former能够接收和处理用户的查询，这些查询可能包含关于3D场景的描述、任务指令或问题。生成3D特征：Q-Former根据输入的查询和场景信息，生成对应的3D特征表示，这些特征可以用于后续的任务，如目标生成、行动规划等。多模态理解与生成：Q-Former不仅处理文本查询，还能够理解和生成与3D相关的多模态数据，如图像、深度图和点云。

2.2.2 交互标记（Interaction Tokens）

交互标记（Interaction Tokens）是3D-VLA模型中用于增强模型与3D环境交互能力的特殊标记。这些标记是模型输入的一部分，它们帮助模型理解和操作3D场景中的物体和空间。1)对象标记（Object Tokens）：用于标记句子中的物体名词，帮助模型识别场景中被操作或提及的具体物体。红色球
2) 位置标记（Location Tokens）：用于表示物体的位置，通过一组标记来描述物体在3D空间中的边界框（例如，用AABB表示）。左上角
3)场景标记（Scene Tokens）：用于封装静态场景的嵌入，使模型能够理解并管理包含3D场景和文本的输入。静态场景
简单例子：假设我们有一个3D场景，其中包含一个桌子和多个不同颜色的球。我们想要生成一个指令，让机器人手臂抓取并移动一个特定的球。使用交互标记，我们可以构造如下的输入：桌子上有一个红色球和蓝色球。请将红色球从桌子的左上角移动到右下角。
在这个例子中，标记用于描述整个场景，标记用于指定需要操作的物体，而标记则提供了物体在3D空间中的具体位置信息。通过这些交互标记，3D-VLA模型能够更准确地理解任务指令，并生成相应的行动计划。

2.2.3 生成目标图像和点云

3D-VLA通过预训练的具身扩散模型来生成目标图像和点云，这些模型能够根据给定的指令编辑初始状态并生成最终状态的3D表示。这些生成的能力是通过一个投影器与LLM的嵌入空间对齐实现的，从而允许模型在不同模态之间进行有效的转换。

预训练具身扩散模型：

为了使3D-VLA具备生成目标状态的能力，研究者首先预训练了一系列具身扩散模型，这些模型能够在不同的模态（如RGB图像、深度图和点云）上进行条件生成。

这些模型被训练来根据给定的初始状态和文本指令，编辑和生成对应的最终状态模态。例如，对于RGBD到RGBD的生成，使用Stable Diffusion V1.4作为预训练模型，并将RGB和深度信息作为条件输入。

桥接LLM和目标生成：

预训练的扩散模型提供了生成目标状态的能力，但如何将这些能力与3D-VLA的LLM无缝集成是一个挑战。

为了解决这个问题，研究者开发了一个对齐阶段，通过引入特殊的标记（如和）来告知解码器输出特定模态的内容。

使用基于Transformer的投影器，将LLM的解码器特征和嵌入从语言模型空间映射到扩散模型框架的空间中。这增强了模型理解和生成多模态数据的能力，并在高级语言理解和多模态目标生成之间建立了联系。

训练和微调：

为了训练3D-VLA并使其具备生成目标状态的能力，研究者首先在大规模的3D具身指令数据集上预训练模型

在对齐阶段，研究者使用LoRA（Low-Rank Adaptation）技术对不同的扩散模型进行微调，以提高训练效率并避免灾难性遗忘。使用特殊的标记和projector 来连接LLM和扩散模型，确保模型能够根据输入指令生成准确的目标表示。

他们只训练新引入的特殊标记嵌入、相应的嵌入输出线性层和整个投影器，同时最小化LLM和DM（扩散模型）的去噪损失。

通过注入目标生成能力，3D-VLA模型不仅能够理解当前的3D场景，还能够预测和生成未来的状态，这对于机器人执行复杂任务和在动态环境中做出决策至关重要。这种能力使得3D-VLA在多模态目标生成、目标导向的规划和具身行动预测等任务上表现出色，显著提高了机器人在3D物理世界中的交互和操作能力。

总体而言，3D-VLA方法的突出了其在处理3D数据和执行复杂任务方面的能力，展示了通过结合3D感知、语言理解和行动规划，可以显著提升模型在具身环境中的表现。

3.实验

实验部分主要旨在验证模型在3D推理、多模态目标生成和机器人行动规划方面的能力。以下是一些关键实验的详细介绍：

图片

3D推理和定位（3D Reasoning and Localization）：

实验任务：使用3D具身指令调整数据集进行的任务，如验证（Verification）、任务描述（Task Captioning）、密集描述（Dense Captioning）和对象检测（Localization）。

评估指标：使用准确度（Accuracy）、平均精度（Average Precision, AP）、平均交并比（Intersection over Union, IoU）等指标来评估模型在3D对象检测和定位方面的表现。

结果：3D-VLA在这些任务上表现出色，特别是在3D定位任务中，与2D基线模型相比，3D-VLA显示出显著的改进，证明了其在3D空间理解方面的优势。

多模态目标生成（Multi-modal Goal Generation）：

实验任务：生成与给定指令相符的目标图像和点云。

评估指标：使用峰值信噪比（Peak Signal-to-Noise Ratio, PSNR）、CLIP相似度、结构相似性指数（Structural Similarity Index, SSIM）和Frechet Inception Distance（FID）等指标来评估生成图像和点云的质量。

结果：3D-VLA在生成目标图像和点云方面超越了现有的图像编辑和点云生成方法，展示了其在理解和生成3D内容方面的先进能力。

机器人行动规划（Robot Action Planning）：

实验任务：在RLBench和CALVIN等基准数据集上评估机器人行动预测能力。

评估指标：使用任务完成率（Task Completion Rate）、任务执行准确度（Action Prediction Accuracy）等指标来评估模型在预测机器人行动方面的表现。

结果：3D-VLA在预测机器人行动方面与基线模型相比有显著提升，特别是在需要长期规划和多任务执行的情况下，证明了其在机器人控制和交互中的潜力。

图片

这些实验不仅验证了3D-VLA模型在处理3D数据和执行复杂任务方面的能力，还展示了其在现实世界应用中的潜力，特别是在机器人技术和自动化领域。通过这些实验，研究者能够深入了解模型的优势和局限性，为未来的研究和应用提供了宝贵的见解。

4.结论

3D-VLA模型通过引入创新的3D视觉-语言-行动生成世界模型，成功地将3D感知、推理和行动整合在一起，显著提升了机器人在三维物理世界中的交互和操作能力。该模型利用预训练的具身扩散模型和交互标记，不仅能够理解和生成与3D场景相关的语言描述，还能预测和生成目标状态，包括图像和点云。通过一系列精心设计的实验，3D-VLA在3D推理、多模态目标生成和行动规划等任务上均展现出卓越的性能，验证了其在推动机器人技术和自动化领域发展中的潜力。

后台回复：3D-VLA，即可得到原文论文和代码链接。