【机器人】MIT、UCLA联合发布3D-VLA,重塑机器人的世界观,打造未来智能生活

非常建议去我公众号里看:AI机器人日记,里面有视频,图片,我直接粘贴过来图片都没了,我懒得弄了。
在这里插入图片描述

【日记导读】本文提出了3D-VLA,一种新型的3D视觉-语言-行动生成世界模型,旨在通过整合3D感知、推理和行动,显著提升机器人在物理世界中的交互能力。

以往的视觉-语言-行动(VLA)模型(RT2, PaLM-E)主要依赖于2D输入,忽略了与3D物理世界的广泛联系,且在行动预测上缺乏对世界动态及其与行动关系的深入理解。相比之下,人类能够借助内在的3D世界模型来模拟未来事件,从而更好地规划行动。3D-VLA通过引入一个新的具身基础模型家族,无缝连接3D感知、推理和行动,解决了这些问题。具体来说,3D-VLA建立在3D大型语言模型(LLM)之上,并通过一系列交互标记与具身环境互动。此外,为了赋予模型生成能力,研究者训练了一系列具身扩散模型,并将它们与LLM对齐,以预测目标图像和点云。

3D-VLA的输入包括3D场景信息、物体和行动描述,输出目标图像、点云以及行动预测。为了验证3D-VLA的有效性,研究者进行了多项实验,包括在具身环境中的推理、多模态目标生成和机器人行动规划等任务。实验结果表明,3D-VLA在这些任务上显著优于现有的2D基线模型,展示了其在现实世界应用中的潜力。

图片

项目主页:https://vis-www.cs.umass.edu/3dvla/

后台回复:3D-VLA, 即可得到原文论文和代码链接。

  1. 背景、Insight

背景:在人工智能领域,尤其是机器人技术中,对环境的理解和交互能力是实现高级任务的关键。以前的视觉-语言模型(RT2,PaLM-E)主要基于2D图像,这限制了它们在三维空间中理解和操作物理世界的能力。

以前工作的缺点:先前的方法在处理视觉-语言任务时,往往忽略了三维空间的复杂性,导致模型在执行如抓取、放置等需要精确空间定位的动作时表现不佳。此外,这些模型缺乏对动态世界变化的深入理解和预测能力,无法有效地进行未来状态的模拟和规划。

本篇文章的insight:本文的灵感来源于人类在三维世界中的自然交互方式。人类能够通过内在的三维模型来预测和规划行动,这种能力使得人类能够在复杂的环境中灵活地进行物理操作。文章提出了3D-VLA模型,它模仿人类的这种三维理解能力,通过引入3D感知、推理和行动的生成世界模型,使得机器能够更好地理解和操作三维空间。这一创新的方法不仅提高了机器人在具身环境中的交互能力,也为人工智能领域提供了一种新的、更加接近人类认知方式的三维理解框架。

2.方法

2.1构建3D VLA数据集

现有机器人数据集在3D信息方面的不足,特别是在支持3D感知、推理和行动任务方面的数据稀缺。为了训练和验证3D-VLA模型,需要一个包含丰富3D注释的数据集,这些注释能够帮助模型学习如何在三维空间中理解和操作物体,所以需要构建一个3D VLA数据集。

图片

数据集中的例子

如何构建数据集:

数据收集: 从多个来源收集数据,包括机器人操作数据集和人类与物体互动的数据集(谷歌Open-X-embodiment, RH20T)。这些数据集可能包含真实世界和合成数据。

深度估计和光流估计: 对于缺乏深度信息的视频数据集,使用深度估计算法(如ZoeDepth)来估计每一帧的深度信息。同时,使用光流估计算法(如RAFT)来捕捉视频中物体的运动。

3D注释生成: 利用现有的文本指令和深度信息,生成3D边界框、目标图像、深度图和点云等3D相关注释。这些注释通过预训练的模型(如Grounded-SAM)和自然语言处理工具(如spaCy)来提取。

指令模板和ChatGPT提示:

指令模板(Instruction Templates):指令模板是一种预定义的文本格式,用于生成结构化的指令和问题。这些模板包含了特定的占位符,如、、和,这些占位符在实际应用中会被具体的3D场景信息、物体名称、位置和动作指令所替代。
例如,一个模板可能是这样的:“将从移动到<new_location>”。通过替换这些占位符,可以生成大量的、针对性的指令,用于训练模型理解和执行不同的物理操作任务。

ChatGPT Prompt设计:在构建数据集时,作者使用ChatGPT来生成更自然、更多样化的指令和答案。为了指导ChatGPT生成符合需求的数据,作者提供了一些指令模板和少量的人工编写的示例作为提示(prompts)。这些提示作为输入,ChatGPT会根据这些信息生成更加丰富和多样化的文本描述,这些描述不仅包括了具体的物理操作指令,还可能包括对场景的描述、任务的目标和可能的行动后果等。

图片

比如假设我们有一个3D场景,其中包含一个机器人手臂、一个桌子和几个不同颜色的球。使用指令模板和ChatGPT提示,我们可以生成以下的训练数据示例:指令模板:“将球从<start_location>移动到<end_location>。” 具体描述:“将绿色球从桌子的左边移动到右边。” 在这个例子中,、<start_location> 和 <end_location> 是占位符,它们在实际应用中会被具体的信息所替代。
例如,如果场景中有一个绿色的球位于桌子的左侧,并且我们希望机器人将其移动到桌子的右侧,那么这个指令就会是:(生成的指令):"将绿色球从桌子左侧移动到右侧。"这个指令不仅告诉了机器人需要执行的具体动作,还提供了场景中物体的初始位置和目标位置,帮助机器人理解任务的上下文。通过这样的训练数据,3D-VLA模型可以学习如何根据具体的3D场景和语言指令来规划和执行动作。

通过这样的构建过程,数据集不仅支持了3D-VLA模型的训练,还为模型提供了执行各种具身任务所需的丰富3D环境理解能力。

2.2 3D Vision-Language-Action Generative World Model

图片

以下是3D VLA模型的核心架构和关键组件,这些组件共同实现了对3D环境的理解和操作。

2.2.1 3D-LLM作为骨干网络

3D-VLA的构建基于一个3D大语言模型(3D-LLM),该模型能够处理和生成与3D场景相关的语言描述。这个3D-LLM作为骨干网络,为模型提供了对3D空间和物体的基本理解。

图中的Q-Former即为3D-LLM是因为它是专门为处理3D场景和对象而设计的。Q-Former在3D-VLA模型中的作用包括:处理3D查询:Q-Former能够接收和处理用户的查询,这些查询可能包含关于3D场景的描述、任务指令或问题。生成3D特征:Q-Former根据输入的查询和场景信息,生成对应的3D特征表示,这些特征可以用于后续的任务,如目标生成、行动规划等。多模态理解与生成:Q-Former不仅处理文本查询,还能够理解和生成与3D相关的多模态数据,如图像、深度图和点云。

2.2.2 交互标记(Interaction Tokens)

交互标记(Interaction Tokens)是3D-VLA模型中用于增强模型与3D环境交互能力的特殊标记。这些标记是模型输入的一部分,它们帮助模型理解和操作3D场景中的物体和空间。1)对象标记(Object Tokens):用于标记句子中的物体名词,帮助模型识别场景中被操作或提及的具体物体。红色球
2) 位置标记(Location Tokens):用于表示物体的位置,通过一组标记来描述物体在3D空间中的边界框(例如,用AABB表示)。左上角
3)场景标记(Scene Tokens):用于封装静态场景的嵌入,使模型能够理解并管理包含3D场景和文本的输入。静态场景
简单例子:假设我们有一个3D场景,其中包含一个桌子和多个不同颜色的球。我们想要生成一个指令,让机器人手臂抓取并移动一个特定的球。使用交互标记,我们可以构造如下的输入:桌子上有一个红色球和蓝色球。 请将红色球从桌子的左上角移动到右下角。
在这个例子中,标记用于描述整个场景,标记用于指定需要操作的物体,而标记则提供了物体在3D空间中的具体位置信息。通过这些交互标记,3D-VLA模型能够更准确地理解任务指令,并生成相应的行动计划。

2.2.3 生成目标图像和点云

3D-VLA通过预训练的具身扩散模型来生成目标图像和点云,这些模型能够根据给定的指令编辑初始状态并生成最终状态的3D表示。这些生成的能力是通过一个投影器与LLM的嵌入空间对齐实现的,从而允许模型在不同模态之间进行有效的转换。

预训练具身扩散模型:

为了使3D-VLA具备生成目标状态的能力,研究者首先预训练了一系列具身扩散模型,这些模型能够在不同的模态(如RGB图像、深度图和点云)上进行条件生成。

这些模型被训练来根据给定的初始状态和文本指令,编辑和生成对应的最终状态模态。例如,对于RGBD到RGBD的生成,使用Stable Diffusion V1.4作为预训练模型,并将RGB和深度信息作为条件输入。

桥接LLM和目标生成:

预训练的扩散模型提供了生成目标状态的能力,但如何将这些能力与3D-VLA的LLM无缝集成是一个挑战。

为了解决这个问题,研究者开发了一个对齐阶段,通过引入特殊的标记(如和)来告知解码器输出特定模态的内容。

使用基于Transformer的投影器,将LLM的解码器特征和嵌入从语言模型空间映射到扩散模型框架的空间中。这增强了模型理解和生成多模态数据的能力,并在高级语言理解和多模态目标生成之间建立了联系。

训练和微调:

为了训练3D-VLA并使其具备生成目标状态的能力,研究者首先在大规模的3D具身指令数据集上预训练模型

在对齐阶段,研究者使用LoRA(Low-Rank Adaptation)技术对不同的扩散模型进行微调,以提高训练效率并避免灾难性遗忘。使用特殊的标记和projector 来连接LLM和扩散模型,确保模型能够根据输入指令生成准确的目标表示。

他们只训练新引入的特殊标记嵌入、相应的嵌入输出线性层和整个投影器,同时最小化LLM和DM(扩散模型)的去噪损失。

通过注入目标生成能力,3D-VLA模型不仅能够理解当前的3D场景,还能够预测和生成未来的状态,这对于机器人执行复杂任务和在动态环境中做出决策至关重要。这种能力使得3D-VLA在多模态目标生成、目标导向的规划和具身行动预测等任务上表现出色,显著提高了机器人在3D物理世界中的交互和操作能力。

总体而言,3D-VLA方法的突出了其在处理3D数据和执行复杂任务方面的能力,展示了通过结合3D感知、语言理解和行动规划,可以显著提升模型在具身环境中的表现。

3.实验

实验部分主要旨在验证模型在3D推理、多模态目标生成和机器人行动规划方面的能力。以下是一些关键实验的详细介绍:

图片

3D推理和定位(3D Reasoning and Localization):

实验任务:使用3D具身指令调整数据集进行的任务,如验证(Verification)、任务描述(Task Captioning)、密集描述(Dense Captioning)和对象检测(Localization)。

评估指标:使用准确度(Accuracy)、平均精度(Average Precision, AP)、平均交并比(Intersection over Union, IoU)等指标来评估模型在3D对象检测和定位方面的表现。

结果:3D-VLA在这些任务上表现出色,特别是在3D定位任务中,与2D基线模型相比,3D-VLA显示出显著的改进,证明了其在3D空间理解方面的优势。

多模态目标生成(Multi-modal Goal Generation):

实验任务:生成与给定指令相符的目标图像和点云。

评估指标:使用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)、CLIP相似度、结构相似性指数(Structural Similarity Index, SSIM)和Frechet Inception Distance(FID)等指标来评估生成图像和点云的质量。

结果:3D-VLA在生成目标图像和点云方面超越了现有的图像编辑和点云生成方法,展示了其在理解和生成3D内容方面的先进能力。

机器人行动规划(Robot Action Planning):

实验任务:在RLBench和CALVIN等基准数据集上评估机器人行动预测能力。

评估指标:使用任务完成率(Task Completion Rate)、任务执行准确度(Action Prediction Accuracy)等指标来评估模型在预测机器人行动方面的表现。

结果:3D-VLA在预测机器人行动方面与基线模型相比有显著提升,特别是在需要长期规划和多任务执行的情况下,证明了其在机器人控制和交互中的潜力。

图片

这些实验不仅验证了3D-VLA模型在处理3D数据和执行复杂任务方面的能力,还展示了其在现实世界应用中的潜力,特别是在机器人技术和自动化领域。通过这些实验,研究者能够深入了解模型的优势和局限性,为未来的研究和应用提供了宝贵的见解。

4.结论

3D-VLA模型通过引入创新的3D视觉-语言-行动生成世界模型,成功地将3D感知、推理和行动整合在一起,显著提升了机器人在三维物理世界中的交互和操作能力。该模型利用预训练的具身扩散模型和交互标记,不仅能够理解和生成与3D场景相关的语言描述,还能预测和生成目标状态,包括图像和点云。通过一系列精心设计的实验,3D-VLA在3D推理、多模态目标生成和行动规划等任务上均展现出卓越的性能,验证了其在推动机器人技术和自动化领域发展中的潜力。

后台回复:3D-VLA, 即可得到原文论文和代码链接。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值