Abstract
在机器人技术中,开发 agents 是一项长期存在的问题,能够从非结构化现实世界环境中的视觉观察中执行不同的操作任务。为了实现这一目标,机器人需要对场景的 3d 结构和语义进行全面理解。在这项工作中,我们提出了 gnfactor,这是一种用于具有可泛化神经特征场的多任务机器人操作的视觉行为克隆 agent。gnfactor 通过利用共享的深度 3d 体素表示,联合优化可泛化的神经场 (gnf) 作为重建模块和感知器 transformer 作为决策模块。为了将语义合并到 3d 中,重建模块利用视觉语言基础模型(例如,稳定扩散)将丰富的语义信息提取到深度 3d 体素中。我们在 3 个真实机器人任务上评估 gnfactor,并在 10 个 rlbench 任务上执行详细的消融,演示数量有限。我们观察到 gnfactor 在可见和不可见任务中相对于当前 state-of-the-art 方法的显着改进,证明了 gnfactor 强大的泛化能力。
Keywords: Robotic Manipulation, Neural Radiance Field, Behavior Cloning
1 Introduction
将学习引入机器人操作的一个主要目标是使机器人能够有效地处理看不见的对象,并成功地在新环境中处理各种任务。在本文中,我们专注于使用模仿学习和一些演示进行多任务操作。使用模仿学习有助于避免复杂的奖励设计和训练可以直接在真实机器人上进行,而无需在模拟中创建其数字孪生 [1, 2, 3, 4]。这使我们能够基于用户的指令在复杂环境中对不同任务的 policy 学习(见图 1)。然而,使用有限数量的演示在泛化方面提出了巨大的挑战。这些挑战中的大多数都来自于需要理解场景的 3d 结构、理解对象的语义和功能,并有效地遵循基于视觉线索的任务指令。因此,机器人观测的全面和信息丰富的视觉表示是泛化的关键基础。
图1:左:真实机器人设置中使用的三个摄像机视图来重建稳定扩散[5]生成的特征场。我们分割前景特征以获得更好的说明。右图:来自两个不同厨房的三种语言条件真实机器人任务。通过使用 NeRF 和视图合成来提供监督的表示。虽然它在需要几何推理(例如悬挂杯子)的任务上表现出有效性,但它仅在单任务设置中处理具有大量掩蔽的简单场景结构。更重要的是,如果没有对场景的语义理解,机器人遵循用户的语言指令将非常具有挑战性。
机器人学习视觉表示的发展主要集中在二维平面内的学习。利用自监督目标从二维图像观测[6,7,8]中预先训练表示,或者与policy梯度联合优化[9,10,11]。虽然这些方法提高了样本效率并导致更稳健的 policies,但它们主要应用于相对简单的操作任务。为了解决更复杂的任务,需要几何理解(如物体形状和姿态)和遮挡,机器人学习最近采用了3d视觉表示学习[11,12]。例如,driess等人[12]通过使用nerf和视图合成作为监督来训练3d场景表示。虽然它在需要几何推理(例如悬挂杯子)的任务上表现出有效性,但它仅在单任务设置中处理具有大量掩蔽的简单场景结构。更重要的是,如果没有对场景的语义理解,机器人遵循用户的语言指令将非常具有挑战性。
在本文中,我们介绍了使用一种新颖的表示来学习语言条件 policy,该表示利用 3d 和语义信息进行多任务操作。我们训练可泛化的神经特征场 (gnf),它将 2d 基础模型的预训练语义特征提炼到神经辐射场 (nerf)。我们对这种表示进行 policy 学习,从而得到我们的模型 gnfactor。需要注意的是,gnfactor学习编码器以前馈方式提取场景特征,而不是在nerf中执行逐场景优化。给定一个 rgb-d 图像观察,我们的模型将其编码为 3d 语义体积特征,然后由Perceiver transformer [13] 架构进行处理以进行动作预测。为了进行多任务学习,Perceiver transformer 采用语言指令来获得任务嵌入,并对语言和视觉语义之间的关系进行推理以进行操作。
我们的框架有两个训练分支(见图 3):
图 3:GNFactor 概述。GNFactor以RGB-D图像作为输入,并使用体素编码器对其进行编码,将其转换为深度3D体积中的特征。然后两个模块共享这个体积:体积渲染 (Renderer) 和机器人动作预测 (Perceiver)。这两个模块是联合训练的,它优化了共享特征,不仅可以重建视觉语言嵌入(扩散特征)和其他视图(RGB),还可以估计准确的 Q 值(Qtrans、Qrot、Qcollide、Qopen)。
(i)GNF 训练。给定收集到的演示,我们使用体绘制的视图合成来训练可泛化的神经特征场。除了渲染 RGB 像素外,我们还在 2D 空间中渲染基础模型的特征。GNF 同时从像素重建和特征重建中学习。为了为特征重建提供监督,我们应用视觉基础模型(例如,预训练的稳定扩散模型 [5])从输入视图中提取 2D 特征作为ground truth。通过这种方式,我们可以将语义特征提炼到 GNF 中的 3D 空间中。
(ii)GNFactor 联合训练。基于 GNF 学习目标联合优化的 3D 体积特征,我们进行行为克隆以端到端的方式训练整个模型。
为了进行评估,我们在两个不同的厨房对三个不同的任务进行了真实的机器人实验(见图1)。我们成功地训练了一个policy,它在不同场景中有效地解决了这些任务,比基线方法peract[3]有了显著改进。我们还使用10个rlbench模拟任务[14]和6个设计的泛化任务进行了综合评估。我们观察到,gnfactor的表现优于peract,平均改善1.55倍和1.57倍,与真实机器人实验中观察到的显著差异一致。
2 Related Work
Multi-Task Robotic Manipulation.
最近在多任务机器人操纵方面的工作在执行复杂任务和推广到新场景的能力方面取得了重大进展[15,2,1,16,17,3,18,19]。值得注意的方法通常涉及使用广泛的交互数据来训练多任务模型[2,1,16,17]。例如,