Abstract
利用视觉语言模型(VLMs)进行机器人操作代表了一种新的范式,旨在增强模型对新对象和指令的泛化能力。然而,由于相机规格和安装位置的变化,现有的方法在不同的机器人平台上表现出显著的性能差异。为了应对这一挑战,我们在本文中提出了RoboUniView,这是一种将视觉特征提取与动作学习解耦的创新方法。我们首先通过对易于访问的数据进行预训练,从多视角视图中学习统一的视图表示,然后从这个统一的视图表达中推导出动作来控制机器人操纵。这种统一的视图表示更准确地反映了物理世界,不受机器人平台相机参数的限制。得益于这种方法,我们在要求苛刻的CALVIN基准测试中取得了最先进的性能,将D→D设置的成功率从93.0%提高到96.2%,将ABC→D设置中的成功率由92.2%提高到94.2%。此外,我们的模型表现出出色的适应性和灵活性:它在看不见的相机参数下保持高性能,可以利用具有不同相机参数的多个数据集,并且能够跨数据集进行联合跨任务学习。提供代码以供重新实现。https://github.com/liufanfanlff/RoboUniview
1 Introduction
基础模型[41,12,48]的最新发展显示了显著的进步,展示了在各种任务中的强大功能,如视觉问答(VQA)[56]、开放词汇对象检测和分割[30,16,43]以及全面的文本图像理解[50]。这些成就明确地激励了人们继续研究如何将这些模型的能力有效地整合到机器人控制系统中。
基于这一势头,学术界分成了两种突出的方法:第一种方法利用现成的大型语言模型(LLM)和视觉语言模型(VLM)的快速调整来进行零样本规划和任务分解,随后通过激活低水平技能库来补充[1,13,20,37,44,51]。这些方法需要复杂的快速调整和战略逻辑。第二种方法侧重于模仿学习或强化学习,使用广泛的机器人数据集[6,5,28,26,3]。借鉴自动驾驶技术的发展轨迹[19,52,34,22],这些方法在机器人操纵领域实现通用智能方面具有更大的潜力。然而,关于第二种方法,现有方法在不同机器人平台上表现出显著的性能差异。主要原因之一是摄像机规格和安装位置的差异,这使得模型难以从不同的图像中准确理解真实的物理空间,从而影响了其动作预测的准确性。我们用最先进的方法RoboFlamingo[28]验证了这一点,发现在推理过程中仅仅改变相机参数就会导致成功率显著下降,从86.3%降至80.8%。尽管一些方法试图解决这个问题,例如RT-X[31],它使用更多的数据收集来训练模型,以及3D Diffusion Actor[26],它为输入添加了深度或点云,但这些方法无疑增加了工作量和硬件成本。
为了解决这些局限性,本文介绍了RoboUniView,这是一种用于机器人操纵的具有统一视图表示的新型视觉语言模型。具体来说,它将视觉特征提取与动作学习解耦。对于视觉特征提取,它将多视角视图统一为统一的视图表示。为了实现这一目标,我们受到BEVFormer[29]的启发,提出了一个名为UVFormer的即插即用插件,可以集成到任何多模态模型中。该插件针对3D占用任务进行了预训练,以多视角视图和相应的相机参数为输入,输出3D网格中每个单元的占用状态和RGB值,加深了对现实物理世界的理解。值得注意的是,我们的预训练任务只需要简单的RGB-D图像,不需要昂贵的手动注释标签(如语义分割、对象、动作等)。对于动作学习,它直接从统一的视图表示中输出机器人动作,遵循OpenFlamingo[2]和RoboFlamingo[28]的设计,它们利用公开的预训练VLMs来整合视觉和语言信息。
大量实验证据表明,我们的模型更好地理解了真实的物理世界,在性能方面明显优于所有现有方法。它还表现出很强的通用性,即使在具有看不见的相机参数的机器人中也能保持高性能。在CALVIN[36]数据集上,RoboUniView通过将D→D设置中的成功率从88.7%提高到96.2%,将ABC→D设置的成功率由82.4%提高到94.2%,建立了一种新的state-of-the-art语言条件任务模拟基准。此外,我们的模型表现出出色的适应性和灵活性:它在看不见的相机参数下保持高性能,可以利用具有不同相机参数的多个数据集,并且能够跨数据集进行联合跨任务学习。可视化如图1所示,其中RoboUniView可以捕捉真实的物理环境并输出有效的动作。
Figure 1: The visualization of RoboUniView on D → D split. The first row shows the predicted occupancy, and the second row shows the predicted rollouts.
据我们所知,robouniview代表了一项开创性的努力,即证明统一的视图表示与3d占用任务 3D occupancy task的预训练相结合,可以显著提高机器人在各种相机参数下的操作性能和泛化能力。本文的主要贡献包括:(1)提出了一种具有统一视图表示的机器人操纵视觉语言模型,提高了机器人相机参数的性能和泛化能力。(2) 提出了一种有效的预训练方法,用于获得统一的视图表示,以更好地理解真实的物理世界;(3) 进行了广泛的实验来评估robouniview在各种设置下的性能,实现了state-of-the-art性能,在calvin[36]基准上具有显著优势。
2 Related Work
Language-conditioned Visuomotor Policies
语言条件视觉运动机器人是最接近人类的机器人操作,要求机器人理解人类的命令,并根据视觉反馈完成各种任务。这种方法具有广泛的应用前景和挑战;因此,近年来,语言条件视觉运动器policies受到了广泛关注。许多工作涉及机器人抓取的学习策略和预测模型[17,55,54,11,35,33]。机器人学习在多任务处理和语言条件学习领域得到了快速发展,robouniview就是建立在这些工作的基础上的。
View Transform.
视图转换在embodied ai中有广泛的应用,其目标是将透视图特征转换为与目标任务对齐的统一视图。在自动驾驶任务中,感知和规划需要从鸟瞰