0. 简介
25年5月来自香港城市大学、墨尔本大学和汉堡大学的论文《A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI》。导航和操控是具身智能的核心能力,然而在现实世界中训练具备这些能力的智体却面临着高昂的成本和时间复杂度。因此,模拟-到-现实的迁移已成为一种关键方法,但模拟-到-现实的差距仍然存在。本综述分析被忽视的物理模拟器特性,探讨如何弥补这一差距。还分析它们在导航和操控任务中的特性以及硬件要求。此外,还提供包含基准数据集、指标、模拟平台和前沿方法(例如世界模型和几何等变性)的资源,以帮助研究人员在考虑硬件限制的情况下选择合适的工具。
1. 引用
具身人工智能 (EAI) 涉及像机器人这样的智体,它们通过传感器和动作与物理环境交互。导航和操控是 EAI 的核心功能,适用于大多数现代机器人应用。这些任务需要智体感知、理解并与其环境交互。人工智能的最新进展使得基于学习的方法(例如强化学习 (RL) 和模仿学习 (IL))在训练导航和操控智体方面前景广阔。然而,收集真实世界数据来训练此类智体的成本高昂,尤其是在考虑到多样化的实施场景(机器人设计或传感器的差异)时。模拟器通过提供经济高效且可扩展的解决方案来解决这个问题,使机器人能够高效地在大型多样化数据集上进行训练。这些智体通过模拟-到-现实的迁移部署到现实环境中,在这个过程中,在模拟环境中训练的智体会适应现实世界的部署 [185, 196]。然而,模拟-到-现实的方法存在“模拟-到-现实”的差距。这种差距源于模拟环境与真实世界环境之间的差异,包括物理动力学(例如摩擦、碰撞和流体行为)以及视觉渲染(包括照明和摄像机曝光)。先进的模拟器,例如可微分且高度逼真的 Genesis [6],缩小这一差距。它们通过精确的物理建模和逼真的渲染来实现这一点,从而提高了模拟训练的智体向真实世界机器人的可迁移性。
本综述全面概述具身智能中机器人导航和操控方面的最新进展,突出了物理模拟器的作用。它提供了对模拟器功能特性的详细洞察,以及对相关任务、数据集、评估指标和前沿方法的分析。这为研究人员提供了选择符合其需求的工具的洞察力。
如图所示,自 2019 年以来,导航和操控技术取得了快速发展。这两个领域都取得了显著进展,这得益于人们对数据驱动方法日益增长的兴趣。 2020 年至 2022 年间,导航和操控技术的发展加速。大规模数据集 [42, 44, 92, 100, 118, 147, 149, 181](包括包含大量演示数据的数据集)的引入,使得模型能够通过模仿学习实现更好的泛化 [49, 58, 94, 122, 186]。从 2022 年起,基础模型 [201, 205]、世界模型 [2, 9] 和视觉-语言-动作 (VLA) 模型 [15, 31, 210] 的兴起标志着又一次飞跃。
图1. 时间线展示了自2019年以来具身人工智能中导航(上)和操控(下)研究的演变。它突出了关键的方法论,包括显式和隐式记忆、基础模型、世界模型、强化学习(RL)、模仿学习(IL)、扩散策略(DP)以及视觉-语言-动作(VLA)方法,以及基准数据集。基准为训练和评估智能体提供了基础,而新基准的引入往往激发创新方法,从而共同推动该领域的发展。
在导航领域,技术越来越多地采用隐记忆,例如基于潜表征的记忆 [61, 82, 112, 156, 209]、基础模型 [201, 205] 和世界模型 [2, 9]。这些进步得益于互联网规模的训练数据和大规模导航数据集,例如 iGibson [92, 147]、ALFRED [149] 和 Habitat-Matterport 3D Semantics [181],它们为能够以最少的任务特定调整处理多样化环境的通用导航智体奠定了基础。
与此同时,操控方法也取得了显著进展,从早期基于强化学习 (RL) 的方法 [120, 121, 125, 153] 发展到模仿学习 (IL) [8, 47, 122, 173]、扩散策略 (DP) [26] 和 VLA 模型 [15, 31, 210]。2020 年至 2022 年间引入了大规模数据集,包括 GraspNet-1Billion [42, 44]、ManiSkill [118] 和 SoftGym [100],使得操控代理能够通过在不同任务中对大规模数据集进行预训练来实现更好的泛化。2023 年至 2025 年,RT-2 [210] 和 RT-X [31] 等 VLA 模型集成了视觉、语言和动作,能够在多模态情境中实现更复杂的操控。这种从 RL 到 IL、DP 和 VLA 的演变反映了向数据丰富的多模态策略的转变,支持开发能够处理多模态输入(包括语言和图像)的通用模型,并适应不同的操作场景而无需针对特定任务进行再训练。
本文对 EAI 进行详细的探讨,重点关注导航、操控以及用于支持它们的物理模拟器,如图所示。
图 2. 本次调查的分类法,主要聚焦于具身人工智能的两个核心任务:导航与操作。我们讨论了每个任务的组成部分,包括任务、模拟器、数据集、评估指标和方法。对于每个组件,我们进一步细分为不同类型,以构建更系统的分析。
2. 导航
导航是具身智能智体的一项重要能力,使其能够部署在各种现实世界应用中,包括自动驾驶汽车[63]、个人助理[34]、救援机器人[207]等等。然而,直接在现实世界中训练这些智体面临着巨大的挑战,包括高成本、时间限制、安全风险、设置环境的开销以及收集大规模训练数据的困难。为了克服这些挑战,模拟-到-现实的迁移已成为一种流行的方法。然而,成功的模拟-到-现实迁移需要解决两个关键挑战。首先是视觉上的模拟-到-现实的差距:模拟器中的摄像头传感器必须渲染逼真的图像,以确保在模拟器中训练的智体感知模块能够适应现实世界的视觉观察。其次是物理上的模拟-到-现实的差距:现实世界环境包含不平坦的地形,在这些地方导航需要机器人具备强大的运动能力。为了在模拟器中开发这些功能,物理引擎必须精确复制碰撞动力学,并向机器人的本体感受传感器提供真实的反馈。这确保在模拟中训练的运动控制策略能够无缝适应现实世界的物理约束,从而在部署时实现可靠的性能。
如图详细分解模拟器中智体的导航过程,重点介绍四个关键步骤,并展示了模拟-到-现实的挑战是如何产生的。这些步骤包括:
图3. 此图概述了导航任务中的四个关键步骤——感知、记忆构建、决策制定和行动执行——以及视觉渲染和物理动态这两个从仿真到现实的挑战。导航任务分为目标驱动(例如,PointNav、ImageNav、ObjectNav)和任务驱动(例如,EQA [35]、VLN [4])。记忆可以分为显性记忆和隐性记忆。
(1) 感知。智体通过模拟器渲染的传感数据(例如图像或点云)感知周围环境。此步骤直接解决了视觉上的“模拟-到-现实”差距。为了有效地在现实世界中部署,模拟的传感器输出应与现实世界数据紧密匹配。除了视觉上的“模拟到现实”差距之外,现实世界的导航通常还涉及部分可观察性,这限制了智体在每个时间步骤中只能感知环境的局部部分,例如其周围环境。因此,智体必须随着时间的推移探索和积累这些局部观察结果,从而构建环境的全局记忆。
(2) 记忆构建。由于部分可观察性,智体必须构建并维护环境的全局记忆。传统上,这依赖于显式记忆,包括:
- 基于度量地图的记忆,它为需要细粒度导航动作控制和避障的任务提供精确的空间布局(例如,如图所示的占用网格 [157])。
- 基于图的记忆,它将环境表示为节点和边(例如,如图 3 所示的拓扑地图 [141]),用于粒度更粗的高级规划。
数据驱动的方法,例如利用从大规模专家导航演示数据集中进行模仿学习的方法,允许智体在不维护显式数据结构来存储历史观察结果的情况下进行导航。这些智体使用隐式记忆来决定动作,隐式记忆分为三类:
- 基于潜表征的记忆,它涉及存储编码历史观察结果和指令的潜嵌入,并使用它们来规划未来的动作。
- 基于基础模型,利用大型预训练模型(例如大型语言模型 (LLM) 或视觉语言模型 (VLM))将场景和语言指令编码为 token,并利用其丰富的预训练知识推理导航步骤 [201, 205]。
- 基于世界模型,学习环境动态模型,根据当前状态和动作预测未来状态(例如视频序列),并辅助规划和导航引导 [9]。
(3) 决策。智体利用记忆规划动作以实现特定目标。该过程分为两种主要类型:
- 目标驱动导航,智体以特定位置为目标(例如,点-目标导航中的点、图像-目标导航中的图像或对象-目标导航中的对象)。
- 任务驱动导航,其中智体遵循文本指令(例如,在具身问答 (EQA) [35] 中回答问题,在视觉和语言导航 (VLN) [4] 中执行基于语言的指令,或在合作视觉和对话导航 (CVDN) [164] 中根据对话进行导航)。
(4)动作执行。最后,智体在模拟环境中执行动作。在训练具有运动能力的智体时,成功的模拟-到-现实迁移需要模拟器准确地复制现实世界的物理,确保在模拟中有效的控制命令在现实中也能无缝运行。因此,模拟器必须通过逼真地模拟物理交互(例如在不平坦地形上的碰撞,以及在各种表面(如光滑的冰面或粗糙的混凝土)上的摩擦)来解决物理模拟-到-现实的差距。
如图详细分解了导航过程,并在模拟环境中演示了这些步骤。具体而言,在 (a) 中,第一人称摄像机视图展示了具有照片级真实感渲染的感知能力,例如玻璃门附近逼真的室外光线、精准的摄像机曝光以及细致的室内阴影,从而缩小了视觉模拟-与-现实之间的差距。此视图也凸显部分可观测性的挑战,因为机器人只能感知其周围环境,并且必须逐步构建对环境的全局记忆。在 (b) 中,占用地图通过提供空闲区域和占用区域的空间表示来体现显性记忆构建,轮式机器人可以使用这些空间表示来规划路径并避开障碍物。最后,在 (c ) 中,机器人按照规划的路径穿过走廊,演示动作执行。
图4. 体现化智能体导航任务的示意图。(a) 机器人在室内环境中的第一人称摄像头视角,强调了部分可观测性所面临的挑战。(b) 用于规划和模型构建的占据地图,显示了自由空间(白色)和被占据空间(灰色),以及目标位姿(绿色箭头)。© 一个模拟环境,其中机器人智能体正在一个走廊中导航。
3. 模拟器
现代导航模拟器根据其支持环境的可扩展性大致可分为三类:室内模拟器通常针对结构化、小规模环境(例如家庭)量身定制,以支持个人助理等应用;室外模拟器专为大规模、动态的室外环境而设计,常用于自动驾驶汽车;通用模拟器可针对室内/室外环境进行定制。这些模拟器支持的环境规模会影响导航任务的选择和导航智体的设计。例如,外显记忆可能足以满足室内模拟器渲染的小规模室内环境的需求,而世界模型可能需要用于管理室外模拟器提供的大规模开放世界环境。此外,模拟器必须解决两个关键的模拟-到-现实挑战——视觉模拟-到-现实的差距和物理模拟-到-现实的差距——才能有效地进行现实世界部署。
如图进一步展示这些模拟器中的环境,从左到右依次为:Habitat [114, 132, 161]、AI2-THOR [87]、CARLA [38]、AirSim [146]、ThreeDWorld [51] 和 Isaac Sim [124],重点展示了它们的视觉渲染能力。
图5展示了六个导航模拟器,这些模拟器被分为室内、室外和通用类型,从左到右排列。前两个模拟器,Habitat和AI2-THOR,代表室内环境:Habitat模拟了一个逼真的3D厨房场景,并提供了自上而下的占用地图,而AI2-THOR则模拟了一辆轮式机器人在家庭环境中导航并与物体(如西红柿)互动。接下来的两个模拟器,CARLA和AirSim,展示了室外环境中的开放世界场景:CARLA展示了一辆在城市道路上行驶的汽车,AirSim则模拟了一架无人机在郊区街道上导航,并提供深度传感器视图。最后两个模拟器,ThreeDWorld和Isaac Sim,代表通用设置:ThreeDWorld展示了一辆轮式机器人在一个逼真的卧室环境中导航,而Isaac Sim则展示了一辆移动机器人在仓库环境中导航。
室内模拟器。室内模拟器适用于结构化的小规模环境,非常适合开发个人助理机器人等在家庭等室内区域导航的应用。现有的室内模拟器通常利用真实环境扫描或高级渲染技术来最小化视觉模拟与现实之间的差距,同时将物理模拟的重点放在更简化的碰撞检测上。Matterport3D 模拟器 [18] 利用 Matterport3D 数据集,该数据集包含 10,800 个全景视图,这些视图源自现实世界中 90 个不同场景的 194,400 张 RGB-D 图像。它通过使用数据集中的真实环境扫描实现了高视觉保真度,由于模拟感知反映了实际的摄像头输出,从而有效地缩小了视觉模拟与现实之间的差距。然而,它不具备物理动力学——它缺乏物理引擎,将导航限制在预计算的视点(平均间隔 2.25 米)之间的离散过渡,并通过可行走路径进行隐式碰撞检测。这种离散设计使其不适合训练智体在不平坦的地形上导航,因为这种运动需要实际的物理交互。
相比之下,Habitat-Sim [114, 132, 161]、AI2-THOR [87] 和 iGibson [176] 等模拟器集成了物理引擎来支持动态交互。例如,Habitat-Sim [114, 132, 161] 从 Matterport3D [18]、Gibson [176]、HM3D [137] 等数据集以及合成 CAD 模型渲染各种 3D 重建场景,在图形处理单元 (GPU) 上实现超过 10000 帧/秒的渲染速度。为了增强感知真实感,它集成了 RGB-D 传感器的噪声模型,模拟诸如失真之类的缺陷,从而提高了感知模型从模拟-到-现实的可迁移性。
在物理动力学建模方面,它采用 Bullet 物理引擎进行刚体动力学建模,从而能够在 3D 环境中实现精确的碰撞检测和运动。 Habitat-Sim 与 Habitat-Lab 库集成,可执行 PointGoal、ObjectNav、ImageNav、VLN 和 EQA 等任务,为导航研究提供一个灵活的平台。同样,AI2-THOR [87] 利用 Unity3D 的基于物理的渲染 (PBR) 技术,提供照片级逼真的视觉效果。它支持域随机化技术(例如改变材质和光照),以增强视觉模拟-到-现实的可迁移性。AI2-THOR 采用的基于 Unity 的物理引擎支持逼真的碰撞检测和运动。ProcTHOR 扩展 [36] 通过程序化生成 10000 栋独特的房屋,增强 AI2-THOR 的可扩展性,从而提供多样化的室内导航环境,实现策略泛化。此外,iGibson [176] 使用基于物理规则的渲染 (PBR) 和双向反射分布函数 (BRDF) 模型来模拟真实的光相互作用——捕捉诸如角度相关的反射率之类的效果——并结合域随机化,以缩小视觉模拟与现实之间的差距。与 Habitat-Sim 一样,它也采用 Bullet 物理引擎,确保碰撞和运动的动态精确性。它还可以在 15 个室内场景中容纳各种智体(例如,人形机器人,ant),并可通过 CubiCasa5K 等数据集进行扩展。
室外模拟器。CARLA [38] 和 AirSim [146] 为自动驾驶汽车和机器人提供城市区域和自然地形的模拟环境。两者都利用虚幻引擎 4 的 PhysX 技术,通过光线追踪和基于物理的渲染 (PBR) 提供照片级真实感渲染,同时采用域随机化来最小化视觉模拟与现实的差距。然而,这些高级特性会带来显著的计算开销。具体来说,CARLA [38] 是一款专为自动驾驶量身定制的开源模拟器,它支持 CARLA2Real 等工具来进一步增强照片级真实感,并利用 PhysX 进行物理模拟、车辆动力学管理、碰撞检测和运动控制。相比之下,AirSim [146] 使用针对速度优化的自定义物理引擎来处理碰撞检测和运动,并集成了 IMU 和 GPS 等逼真的传感器模型,以准确复制真实世界条件。
通用模拟器。通用模拟器支持室内和室外环境,提供高保真视觉效果和精确的物理特性。然而,这些特性也伴随着计算复杂度的增加,通常需要高端 GPU 或高效的训练框架。基于 Unity3D 构建的 ThreeDWorld (TDW) [51] 使用 PBR 和高动态范围图像 (HDRI) 光照进行照片级真实感渲染,最大限度地缩小了视觉模拟与现实之间的差距。它采用 PhysX 物理引擎,支持布料和流体模拟,并确保逼真的碰撞检测。此外,TDW 还支持像 Transport Challenge [51] 这样的任务,该任务需要室内操控和室外探索。与此同时,NVIDIA 开发的 Isaac Sim [124] 利用 RTX 技术实现照片级逼真的光线追踪渲染,从而最大限度地缩小视觉模拟与现实之间的差距。它还利用 PhysX 引擎为碰撞检测和运动提供精确的动力学。与 Isaac Lab 集成后,它支持强化学习和模仿学习,可用于路径规划等任务,其应用范围从仓库到户外环境。这些模拟器支持的高保真模拟确保训练出的策略以逼真的视觉效果和物理效果为基础,从而增强了其在现实场景中的可部署性。然而,为了满足这些模拟器的高计算需求,通常使用分层训练框架:RL 或比例-微分 (PD) 控制器管理运动和短程导航,然后是基于深度学习的路径规划器,例如航点预测器 [28]。
4. 基准数据集
具身智能中的导航任务包括目标驱动导航(例如 PointNav、ImageNav 和 ObjectNav,其中智体追踪预定目标)和任务驱动导航(例如具身问答 (EQA) [35] 和视觉与语言导航 (VLN) [4],其中智体解释并执行复杂的文本指令)。为了便于在模拟器中对智体进行这些任务的训练和评估,人们提出了各种基准数据集,每个数据集通常与特定的模拟平台配对。根据数据集支持的任务将其分为两大类:目标驱动导航和任务驱动导航。下表总结了这些基准数据集的关键属性,重点介绍它们的规模、传感器数据和性能指标。
表1. 导航任务基准数据集。此表详细列出了数据集的以下信息:大小——数据集的规模(例如,场景或实例);仿真器;传感器数据——感知输入类型(例如,RGB,深度);性能——成功率(SR)的基准结果。
5. 评估指标
每种类型的导航任务都需要根据其不同的目标量身定制评估指标。目标驱动导航侧重于高效地到达预定目标(例如坐标、图像或物体),通常使用成功率、路径长度和完成时间等定量指标来衡量。相比之下,任务驱动导航要求智体根据文本指令执行操作或在探索环境后回答问题,因此需要评估操作指令一致性和回答准确性的指标。
从四个关键角度评估这些指标——尺度不变性、顺序不变性、安全合规性和能源效率——如图所示。这些角度解决了现实世界中的关键考虑因素:尺度不变性确保了指标在不同环境尺度(从室内设置到室外景观)中的稳健性;顺序不变性允许智体通过不同的路径实现导航目标,而不是遵循真值路线,因为现实世界中通常存在多条有效路径;安全合规性评估智体避免碰撞和危险区域的能力;能源效率评估资源优化,通常通过路径长度或导航持续时间来近似。
图6. 各指标的得分(分数越高越好):尺度不变性评估指标在不同规模环境中的鲁棒性,顺序不变性评估指标是否考虑了动作序列,安全合规性评估指标在导航过程中是否能够评估安全性,而能效评估则考量指标是否暗示了能量效率。
6. 方法
在导航过程中,智体会遇到部分可观察性,因此需要构建对历史观察和操作的记忆,以指导操作的执行。有两种记忆类型实现导航的方法:外显记忆和内隐记忆。
6.1 显式记忆
显式记忆的构建涉及以结构化格式存储环境信息以支持导航。这种方法主要分为两类——基于度量地图和基于图——它们的粒度和可扩展性各不相同。选择哪种方法取决于低级操作所需的精度和环境的规模。度量地图擅长细粒度的空间表示,可在小规模环境中实现精确控制;而图则将环境抽象为拓扑关系,从而能够在大规模环境中实现高效规划。
基于度量地图的方法。这些方法将环境离散化为网格、点云、体素或网格,以构建地图,从而简化路径查找等下游任务。
基于图的方法。图充当抽象结构,用于捕获环境拓扑结构或对象的空间关系。对于更大的环境,拓扑图通过将关键的观测地标(例如,门口、交叉路口)表示为节点,将它们之间的可遍历路径表示为边,从而提供了一种可扩展的解决方案。
6.2 内隐记忆
内隐记忆包括一些方法,其中智体不依赖于显式数据结构来表示环境。相反,它们使用学习的编码、预训练知识或预测模型,根据过去的视觉观察和动作做出决策。这种方法在动态或大规模环境中尤其有利,因为传统的显式记忆结构可能不适用。内隐记忆可以分为三类:1)基于潜表征:将历史数据编码为紧凑的潜向量,从而可能减少内存需求。2)基于基础模型:利用大型预训练模型,这些模型利用互联网规模的知识来处理观察和指令,但这可能涉及大量的计算资源。3)基于世界模型:预测未来的环境状态,为行动规划提供信息。
基于潜表征的方法。显式记忆结构(例如地图和图形)本质上是静态的,因此需要频繁更新才能捕捉动态的现实世界环境。这些更新会带来大量的计算开销。基于潜表征的方法通过将观察和动作序列编码为潜向量来解决这一限制,然后直接使用这些潜向量来推断导航动作。
基于基础模型的方法。基于基础模型的方法利用大型预训练模型(例如大语言模型 (LLM) 或视觉-语言模型 (VLM))来利用隐性记忆,将场景和语言指令编码为文本 tokens 或潜嵌入。这些模型在互联网规模的数据上进行训练,使用其预训练知识作为隐性记忆来做出导航决策。
基于世界模型的方法。另一类内隐记忆方法是基于世界模型的方法,它学习预测未来的环境状态,例如视觉观察或潜动态,以指导导航。这些方法还通过生成大规模合成数据集,解决具身智能中机器人数据集稀缺的关键挑战。具体而言,通过模拟不同的环境场景,它们为导航策略提供了大量的训练数据,增强了其在各种情况下的泛化能力,甚至包括自动驾驶中复杂的开放世界场景。此外,世界模型的预测能力有助于轨迹优化,允许通过模拟未来状态来规划最佳动作序列。
7. 方法
通过模拟-到-真实 (sim-to-real) 训练操控智体,既需要理解智体感知系统中精确的几何细节,也需要使用能够模拟真实物理动力学的模拟器。想象一下,一个机器人在模拟环境中学习拧开瓶盖:它必须感知并准确理解瓶盖及其末端执行器的形状和姿势。此外,模拟器必须模拟真实的物理交互,包括多点接触、摩擦力和碰撞力,才能成功实现该任务从模拟-到-现实的迁移。因此,当前的操作研究涵盖了感知建模的改进以及模拟器和物理引擎的开发。值得注意的是,可微分模拟器最近备受关注:这些模拟器为训练策略提供与物理状态相关的梯度,并具有更好的模拟-到-真实迁移能力。
此外,操作任务的复杂度各不相同。随着任务的复杂度增加,智体需要更先进的感知方法和硬件。诸如平面抓取等简单任务通常可以使用二维传感器(例如 RGB 摄像头)和基本抓取器来解决。然而,灵巧的手持操作需要三维感知——利用点云或体素等表征——以及多指手。这凸显对感知、表征、模拟器和硬件的要求会随着任务难度的不同而变化。
7.1操控任务
为了更好地理解操控相关的挑战,我们首先根据复杂性和所需的自由度 (DoF) 对密钥操控任务及其相关硬件进行分类,如图所示。
图7. 操作任务和硬件的概述,按复杂性和自由度的递增顺序排列。
上方:抓取(手臂拾取物体)、灵巧操作(手与魔方)、可变形物体操作(手臂折叠布料)、移动操作(类人/四足机器人)——这些任务在与环境交互时需要越来越先进的感知和控制能力。
下方:夹具、灵巧手、软手、双手、轮式机器人上的手臂、四足机器人和类人机器人——这些硬件提供了越来越高的自由度、灵活性,以及操作与移动的整合。
抓取是机器人技术的一项基本任务,通常被定义为“拾取-放置”操作,机器人必须握住物体并将其放置在新的位置。平面抓取涉及三个自由度 (DoF),通常用于抓取平面上的物体。而全三维抓取则需要六个自由度——x、y、z、滚动、俯仰和偏航——才能抓取任意姿态的物体,因此需要机械臂具有更高的自由度以实现有效协调。
灵巧操作是指使用多指手(通常使用三根或更多手指)进行的手部操作。这项任务采用诸如手指移动、滚动或旋转 [56, 125] 等技巧来控制手中物体的方向(例如,扭转魔方和旋转钢笔)。这项任务需要手指之间精确协调,以处理移动物体所涉及的复杂接触动力学。对于形状复杂的物体,精确模拟手指与物体之间的摩擦力和多点接触至关重要——MuJoCo 等模拟器有效地提供了这一功能 [165]。
可变形物体操控,涉及处理布料或绳索等软质材料,这些材料在受到外力作用时会弯曲、挠曲或变形。与形状固定的刚性物体不同,软体物体中点的相对距离并非固定,从而导致物体状态空间高度动态且复杂。打结或折叠衣服等任务需要实时监控物体的几何变形,并进行精确控制以适应材料特性(例如弹性和摩擦力)。
移动操控,涉及安装在具有导航功能的移动平台上的机械臂,例如轮式机器人、四足机器人或人形机器人。例如,机器人可能会导航到厨房,打开抽屉,然后拿起杯子,这需要机器人既能在环境中导航,又能操控物体。
开放世界操控,解决了“无限可变性问题” [163]。它要求机器人在非结构化和动态环境中处理新物体,例如在杂乱的空间中拾取看不见的物品。这些环境的不可预测性要求机器人从有限的训练数据中进行泛化,并适应新的物体、材料或条件。
易碎物体的操作,涉及处理精密物品,需要精确的力控制和小心处理以防止损坏物体。一种常见的方法是使用由橡胶、硅胶或碳纤维等材料制成的软体机器人夹持器。这些夹持器采用执行器(例如气动[155]、液压[206]或肌腱驱动[168]系统)来控制手指运动,确保压力分布均匀,从而更安全地进行操作。精确的力控制对于避免损坏至关重要,因此需要实时反馈和针对不同易碎程度(例如蛋壳和浆果)的自适应控制策略。准确模拟物体属性对于有效训练此任务至关重要。此外,通过视觉线索(例如几何形状、纹理)或触觉反馈检测脆弱性,对于适当调整握力至关重要。
双手操作采用双臂系统,例如 ALOHA [199],来执行需要超出单臂能力协调性的任务,例如组装乐高积木。
7.2 物理引擎与模拟器
与导航模拟器类似,操控模拟器必须解决物理和视觉模拟与现实之间的差距,以确保机器人智体的有效训练和部署。然而,缩小物理模拟与现实之间的差距对于操控任务尤为重要,因为操控涉及与物体的更多交互。模拟操控任务涉及对复杂的物理交互(例如多点接触)、特定材料摩擦力(例如石头或冰)以及碰撞力进行建模,这些力会随着任务复杂度的增加而变得越来越复杂(灵巧操控比平面抓取涉及更多碰撞)。精确模拟这些动态特性对于开发能够无缝迁移到现实世界场景的控制策略至关重要。最近,像 Genesis 这样的可微分模拟器通过提供物理状态梯度来提升这一能力,从而缩小物理模拟与现实之间的差距,并实现操控策略的精确优化。为了弥补视觉模拟与现实之间的差距,模拟器采用光线追踪和真实深度噪声等高级渲染技术,以创建与真实世界条件高度相似的逼真环境,如图所示。
图8. 不同仿真器的渲染效果比较。PyBullet(左侧)采用光栅化技术,提供快速且基础的视觉效果,具有平坦的阴影。Isaac Sim(中间)运用光线追踪技术,呈现出逼真的视觉效果,配以精准的光照、阴影和反射,较好地模拟了真实世界的条件。SAPIEN(右侧)则使用逼真的深度噪声进一步增强深度感知,使仿真深度图与真实传感器数据保持一致。
开发过程中的关键里程碑,并对不同的模拟平台进行详细比较,如图所示和如表模拟器的总结和比较:
图9. 展示了关键物理引擎和模拟器的图示,包括Gazebo、PhysX、MuJoCo和PyBullet,以及后来的PhysX 5和Genesis,突出了GPU加速、逼真的渲染和可微分物理特性。
经典物理引擎和模拟器。经典模拟器依靠传统力学来模拟物理动力学和接触建模,多年来一直是机器人模拟的基础。Gazebo [86] 与机器人操作系统 (ROS) 紧密集成,并支持多种物理引擎,例如动态动画和机器人工具包 (DART)、开放动力学引擎 (ODE) 和用于刚体动力学的 Bullet。这些物理引擎主要擅长刚体模拟。在视觉上,它利用了开源 3D 图形引擎 (OGRE),该引擎支持 GPU 加速着色,但缺乏光线追踪或真实感功能。同时,PyBullet [33] 专注于速度和效率。PyBullet 基于 Bullet 物理引擎构建,提供 GPU 加速和持续碰撞检测,以提高模拟速度。它使用线性互补问题 (LCP) 接触模型进行物理模拟,该模型计算量大,并且可能无法准确近似接触点处的摩擦锥,从而影响物理模拟与真实的差距。PyBullet 中的渲染仅限于通过 OpenGL 进行光栅化,不支持光线追踪或深度噪声模拟,从而限制了其缩小视觉模拟与真实的差距的能力。相比之下,MuJoCo [165] 优先考虑接触动力学的精度,使其适用于灵巧操作。它在多关节系统模拟方面表现出色,具有精确的接触建模,使用广义坐标捕捉机器人机械手动力学,并实现稳定、富含摩擦的相互作用。然而,其软接触模型可能导致撞击过程中的相互穿透。在视觉上,它使用基于 OpenGL 光栅化的渲染,缺乏硬件加速的实时光线追踪,限制了视觉保真度并扩大了视觉模拟与真实的差距。但是,它支持多线程,可以加快强化学习速度。在真实感渲染方面,Isaac Sim [124] 和 SAPIEN [19, 116, 178] 均表现突出。它们利用 GPU 加速的光栅化和实时光线追踪,创建具有精确光照和反射的真实感环境,有效缩小了视觉模拟与现实之间的差距。SAPIEN 进一步支持内置的高级深度噪声模拟,该模拟通过基于距离、物体边缘和材质属性生成带有噪声的真实深度图来增强视觉保真度,显著提高了模拟到现实的可迁移性。它们使用 Nvidia PhysX 引擎进行物理处理,支持对刚体、软体和流体动力学进行鲁棒的物理模拟。最后,CoppeliaSim [140] 通过支持多种物理引擎(MuJoCo、Bullet、ODE、Newton、Vortex)提供了灵活性,可以模拟刚体、软体和布料动力学。这种适应性有助于根据特定任务定制物理模拟,但其缺乏 GPU 加速限制了效率。它的渲染主要基于 OpenGL 的光栅化,并支持部分光线追踪,与 Isaac Sim 和 SAPIEN 相比,其照片级真实感略逊一筹。
可微分物理引擎和模拟器。可微分物理引擎计算模拟状态相对于输入(例如动作或物体姿态)的梯度,从而允许通过物理交互(包括碰撞和变形)进行反向传播。通过使用可微分函数对现实世界物理进行建模,这些引擎能够根据基本物理原理,直接在模拟过程中针对现实世界性能优化策略。这种方法增强了训练策略在实际应用中的适应性和可迁移性。Dojo [62] 是一款基于优化第一原理设计的物理引擎。它通过将接触模拟公式化为优化问题,改进了接触建模,并为操作目标的运动学提供了梯度信息。通过应用隐函数定理,Dojo 提供了平滑的可微分梯度。同时,DiffTaichi [64, 65] 是一种用于可微分模拟器的编程语言。它采用 megakernel 方法,将多个计算阶段合并到一个 CUDA 内核中,以最大限度地提高 GPU 利用率并加速模拟。 Genesis [6] 基于 DiffTaichi 构建,是一款针对可微分仿真进行了全面优化的开源模拟器。它支持基于梯度的神经网络控制器优化,并在不影响物理保真度的情况下,实现了比现有 GPU 加速模拟器快 10 到 80 倍的仿真速度。此外,Genesis 还包含一个用于照片级真实感渲染的光线追踪系统,以及一个生成数据引擎,可将自然语言转换为多模态数据,用于自主生成训练环境。
7.3 基准数据集
基准数据集对于增强智能体在不同任务、环境和机器人平台上的泛化能力至关重要。根据这些基准数据集支持的操作任务对其进行分类,范围从简单的刚体操作到更复杂的移动操作场景,甚至扩展到需要智体集成多模态输入的语言条件操作。
此外,还有专门用于训练智体视觉感知模块的数据集。这种分类有助于研究人员找到符合其特定研究需求的数据集。如图展示这些操作基准数据集的比较。上方子图展示数据集内容的规模和多样性。下方子图展示各种方法在这些基准测试中的表现。
图10. 机器人操作基准的比较。顶部子图采用对数尺度绘制,展示了数据集内容的规模和多样性,纵轴表示计数,横轴列出了基准数据集的名称。每个条形代表数据集中某个关键元素的数量(例如,环境、任务、场景、物体类型),这些元素的选择反映了其重点,并且按照类别上色。底部子图评估方法的性能,纵轴显示平均成功率(%),横轴列出相同的基准数据集。每个条形代表在基准任务中各种方法的平均成功率,按照评估任务的类型上色。这两个子图共同描绘了数据集的特征和性能结果,使研究人员能够分析数据的可用性以及不同任务的基线性能。
刚体操作基准。有多个基准测试来探索处理刚体操作任务的智能体的开发。例如,Meta-World [193] 提供 50 种不同的刚体操控环境,而 RLBench [74] 包含 100 项任务。两者旨在训练具有多种基本技能的智体,并在测试中评估其对新任务的泛化能力。
可变形体操控基准测试。SoftGym [100] 和 Plasticinelab [69] 在操控流体、绳索和软材料等可变形体方面开展了深入研究。SoftGym 包含 10 个模拟环境(例如,倒水、折叠布料、拉直绳索),而 Plasticinelab 则利用 DiffTaichi 系统 [64] 进行可微分软体模拟。然而,这些基准测试通常受限于其专注于单一类型的可变形材料和简单任务,缺乏更广泛的应用或涉及多模态指令场景所需的多样性。此外,它们主要使用刚性夹持器,忽视了软夹持器在精细操控可变形体方面的潜力。为了克服这些局限性,GRIP 数据集 [110] 引入一个全面的基准测试,其中包含软爪和硬爪与 1200 个不同物体(包括可变形体)的交互。该数据集基于高保真、并行化的增量潜能接触 (IPC) 模拟器构建,可提供关于变形和应力分布的详细模拟数据。
移动操作基准测试。移动操作基准测试评估智体在需要导航和操作的任务中的表现,这些任务通常需要进行长远规划,例如在操作物体之前导航到较远的位置。OVMM [191] 基准测试专注于在 AI Habitat 模拟器中将物体从起始位置移动到目标位置的任务,其中包含 200 个人工创作的交互式 3D 场景,包含 150 个类别的 7892 个物体。与此同时,基于 Omnigibson 模拟器构建并由 Nvidia PhysX 5 提供支持的 Behavior-1k [93] 带来更广泛、更多样化的挑战。它包含多达 1000 种家务活动,需要综合导航和操作策略。该基准测试提供 50 个完全交互式场景,涵盖“倒酒”和“清洁浴缸”等任务,涵盖 1900 多种目标类型和 9000 多个目标模型,包括体。类似地,ManiSkill-Hab [150] 在 ManiSkill3 平台 [162] 上专注于三项长期家务任务——“整理房间”、“准备杂货”和“摆放餐桌”,该平台以超过 30000 FPS 的速度提供逼真的模拟。最后,为了应对双手移动操作的挑战,BRMData [198] 提供了 10 个不同的家务任务,智能体必须使用安装在移动平台上的两只手臂来完成这些任务。基于语言条件的操作基准数据集。基于语言条件的操作基准数据集评估机器人解释和执行自然语言指令的能力,从包含多步骤任务的模拟数据集发展到大规模的真实世界演示数据集。CALVIN [115] 提供了 34 个长视界任务,每个任务都配有特定的多步骤指令,例如“抓住抽屉把手并打开”或“按下按钮关灯”。它要求智能体遵循详细的指令。RoboTwin [119] 利用大型语言模型 (LLM) 生成操作环境和任务,并从演示视频中重建目标,从而以可扩展的方式推进这项任务。该基准数据集为数据集创建提供了灵活性和可扩展性。RoboMind [175] 和 DROID [83] 进一步提供了大量真实演示数据,可用于训练模仿学习策略。RoboMind 提供了涵盖 279 个任务和 61 个物体的 55,000 条真实演示轨迹,并配有 10,000 条语言注释,可适应厨房、办公室和零售等不同场景中的多种机器人化身。同样,DROID 提供了一个大规模数据集,其中包含 76,000 条真实演示轨迹(相当于 350 小时的交互数据),涵盖 564 个场景和 86 个任务,每条轨迹都配有类似“将球放入碗中”的指令。
多机器人具身集成数据集。最近的基准测试强调可跨硬件和环境迁移的通用策略。例如,Open X-Embodiment [31] 使用来自 22 种机器人类型的数据训练 X-robot 策略,在 160,266 个任务中展示了 527 种技能。它是最大的开源真实机器人数据集,拥有超过一百万条任务演示轨迹。
视觉感知数据集。Graspnet-1 Billion [42] 旨在增强抓取和感知任务,例如 6D 姿态估计和分割。它包含 97,280 幅图像,每幅图像都标注了精确的 6D 物体姿态和抓取点,涵盖 88 个物体,提供超过 11 亿个抓取姿态。
7.4 方法
稳健且可泛化的机器人操控依赖于准确的环境感知和有效的控制策略。该领域的研究主要集中在两个方向:感知表征和策略学习。感知表征涉及从场景中提取丰富的 3D 或多模态信息来指导操控。策略学习则侧重于生成用于任务执行的精确控制命令。
7.4.1 感知表征
感知是机器人操作的基础,所需的三维空间细节水平因任务复杂度而异。感知表征方法可按粒度分类:较粗的目标级表征(如六维姿态)足以完成拾取和放置等基本任务,而复杂的灵巧操作则需要基于体素的更精细的表征或视觉触觉感知 [159]。此外,为了确保跨变换的泛化能力,可以将表征设计为 SO(3) 等变、SE(3) 等变或 SIM(3) 等变。表征学习方法如表所示:
表3. 机器人操作任务的环境表征建模技术总结。该表突出显示了感知建模的关键方法和公式。
体素图表征。基于体素的表征将三维空间离散化为占用网格,其中每个体素反映相应坐标 (x, y, z) 是否被占用(公式 3)。例如,VoxPoser [68] 和 VoxAct-B [103] 集成了体素网格和视觉语言模型 (VLM) 来支持操作任务。VoxPoser 使用 VLM 解释语言指令,生成突出显示与任务相关区域(例如,应该抓取物体的位置)的体素图。同时,VoxAct-B 将这种方法应用于双手操作。这些方法擅长在场景级上下文中识别特定于任务的感兴趣区域 (ROI),从而增强空间理解和目标定位,从而实现有效操作。例如,在拾取和放置任务中,体素图突出显示了目标的手柄以便抓取,让机器人专注于该手柄并忽略其余部分。
目标级表征。多项研究侧重于学习目标级表征,例如 6D 姿态估计(公式 4)和基于 affordance 的抓取提议(公式 5)。6D 姿态估计涉及预测目标在场景中的位置和方向。例如,Pix2Pose [129] 采用逐像素坐标回归,从 RGB 图像中估计 3D 坐标,而无需在训练期间使用带纹理的 3D 模型。此外,FoundationPose [16] 为 6D 姿态估计和物体追踪提供了统一的框架。它还兼容基于模型的方法(使用 CAD 模型)和神经隐式表征,以实现新颖的视图合成。此外,语言嵌入辐射场 (LERF) [81] 将 VLM 与 3D 场景表征相结合,以生成零样本任务特定的抓取提议。LERF-TOGO [138] 对此进行了扩展,利用自然语言提示(例如“杯子把手”)来查询任务特定的物体区域以进行抓取。 F3RM [148] 将 CLIP [134] 中的语义特征提炼为 3D 表示,从而支持针对未知物体的抓取和放置任务的少样本学习。GraspSPlats [76] 通过对实时提案进行显式高斯分层,进一步提高了抓取选择的效率和准确性。
SO(3)-、SE(3)- 和 SIM(3)- 等变表示。等变表示允许操作智体的感知模块泛化到各种变换下的不同输入(例如,目标或场景)。SO(3)-等变确保当输入的 3D 点云旋转时,学习的表征也会经历相同的旋转。SE(3)-等变同时包含旋转和平移变换,使模型能够泛化到场景中目标的不同位置和方向。SIM(3)-等变进一步考虑了尺度变换,从而能够操作不同大小的目标。
SO(3)-等变表征。向量神经元网络 (VNN) [37] 支持对三维点云进行 SO(3)-等变表征学习,此属性确保网络 𝑓 的输出与输入 𝑥 以相同的方式旋转。VNN 的关键机制是保留输入的旋转信息。具体而言,VNN 将神经元扩展为三维向量,并在线性层中应用线性变换,对于任意旋转组 𝑅,满足 𝑊 (𝑥𝑅) = (𝑊 𝑥)𝑅。对于非线性层,VNN 通过在与旋转无关的方向上裁剪特征 𝑉 来泛化 ReLU。具体来说,除了线性变换特征 𝑞 = 𝑊 𝑉 之外,VNN 还学习第二个权重 𝑈 ,它产生方向向量 𝑘 = 𝑈 𝑉 。由于⟨𝑞𝑅, 𝑘𝑅⟩ = ⟨𝑞, 𝑘⟩,内积具有旋转不变性,从而使整个裁剪操作具有旋转不变性。池化层和批量归一化也旨在保留输入的方向信息,确保输出在整个模型中保持旋转等变。
SE(3)-等变表征。神经描述符场 (NDF) [151] 生成从三维物体坐标到描述符(也称为特征向量)的连续 SE(3) 映射,用于下游操作任务。这些描述符在任何刚性变换(旋转和平移)下保持一致。(𝑅,𝑡) 是组SE(3)的一个元素,x是来自目标点云 𝑃 的三维查询点。 NDF 使用向量神经元来确保 SO(3) 等变性,并通过平均中心平移将 VNN 与平移相结合来实现 SE(3) 等变性,从而确保函数仅考虑点云中点的相对变换,而这些变换对于刚体变换保持不变。相关研究,例如等变描述符场 (EDF) [143],将 NDF 扩展为“双等变”,以处理抓取目标和放置目标在三维空间中独立移动的情况。此外,Useek [180] 通过检测 SE(3) 等变关键点,实现在任意 6 自由度姿态下操控物体。此外,Equi-GSPR [78] 和 SURFELREG [80] 将 SE(3) 等变特征应用于点云配准,进一步提高了 3D 感知的鲁棒性。
SIM(3) 等变表征。最近的研究 [91, 183, 184] 探索 SIM(3) 等变学习,它将 SE(3) 扩展至包含尺度。EFEM [91] 使用符号距离函数 (SDF) 编码器-解码器引入了 SIM(3) 等变形状先验学习:Θ = Φ(𝑃), 𝑣ˆ(𝑥) = Ψ (Θ, 𝑥)。其中,Φ 是一个基于视觉神经网络 (VN) 的编码器,将点云 𝑃 映射到潜嵌入Θ,Ψ 预测查询位置 𝑥 处的 SDF。旋转和平移等变由视觉神经网络 (VNN) 和均值中心化保证,而尺度等变则通过逐通道归一化来强制实现。
视觉-触觉感知。触觉传感器使机器人能够感知摩擦和表面纹理,从而实现精确的抓取和灵巧的手持操作。与难以检测视觉遮挡物体形状的 RGB-D 相机不同,触觉传感器通过接触补充视觉数据,从而弥补了这些局限性。例如,NeuralFeels [158] 和 DIGIT 360 [90] 在多指机械手中集成了视觉和触觉,即使在视觉遮挡的情况下,也能让系统准确估计物体的姿态和形状,从而增强空间感知能力。
7.4.2 策略学习
具身操作的最新进展主要集中在基于学习的方法上,采用策略 𝜋(a_t+1|s_t,a_t) 根据当前状态 st(例如,视觉或触觉数据)和先前的动作 a_t 来确定下一步动作 a_t+1(例如,关节角度或位置)。这些策略在马尔可夫决策过程 (MDP) 框架内运行。下表概述主要的策略学习方法、其表述和参考文献。
表4. 操作的政策学习方法概述,分为强化学习(RL)、模仿学习(IL)、视觉-语言模型(VLMs)和视觉-语言动作(VLAs)。对于每种方法,提供了相应的公式和该类别下方法的关键参考文献。
强化学习 (RL)。RL 算法大致分为无模型强化学习和基于模型强化学习。无模型强化学习直接通过反复试验来优化策略,而无需构建明确的环境模型。一个著名的例子是 Q 学习更新规则,其中 s_t 和 a_t 分别表示当前状态和动作,r_t+1 表示获得的奖励,𝛾 表示折扣因子,𝛼 表示学习率。相比之下,基于模型的强化学习会构建一个状态模型,表示为转移概率函数𝑃(s′ | s,a),然后将其用于规划和决策。OpenAI [125] 将无模型近端策略优化 (PPO) [145] 应用于基于 LSTM 的策略,以实现灵巧操作。该策略网络与基于 CNN 的姿态估计网络交互,使用灵巧手将物体旋转到特定方向。训练过程需要在 MuJoCo 中收集大量的操作经验,并结合摩擦力等物理相关参数的随机化,以实现从模拟-到-真实的迁移。同时,Nagabandi [120] 提出了一种基于模型的强化学习方法,使用神经网络近似状态转移分布𝑝ˆ𝜃 (s′ |s, a),作为模型预测控制 (MPC) 中的动力学模型进行在线规划。这两种方法都依赖于大量的反复试验,这对于复杂的操作任务来说效率低下。
模仿学习 (IL)。相比之下,模仿学习 (IL) 为学习复杂任务提供了一种更有效的方法。IL 使用专家的演示来指导强化学习智体,类似于人类婴儿通过模仿父母学习拿勺子的方式。对于操作任务,可以通过多种方式获取演示,包括在移动或便携式硬件上进行远程操作 [27, 50, 95, 173, 199]、虚拟现实 (VR) 设备 [25] 或真人演示视频 [49, 58, 94, 122, 186]。IL 中的一个基本算法是行为克隆 (BC)。在 MOMART 框架 [173] 中,BC 应用于移动操作任务。首先通过智能手机界面在模拟中收集移动操作的演示数据集。该数据集包含有每个时间步的观测值 o 和相应动作 a 的 episodes。然后,BC 用于训练一个由循环神经网络 (RNN) 参数化的策略,基于观测值生成一系列动作 a_t, … ,a_t+T−1。𝜋_𝜃 表示策略,𝜃 表示策略参数。BC 的一个局限性在于,早期时间步的预测差异可能导致机器人偏离训练分布(复合误差),从而难以恢复。这个问题在细粒度操作任务中很常见。为了解决这一限制,Zhao [199]引入了基于 Transformer 的动作分块 (ACT)。与在每个时间步预测单个动作的 BC 不同,ACT 使用 Transformer 网络生成长度为 𝑘 的动作序列 aˆ_t:t+k。然后,它将重叠的动作块与衰减参数 𝑚 组合起来,通过计算每个动作块 aˆ (i)_t 每个时间步 𝑡 和相应的第 𝑖 个重叠块的预测加权平均值来确定最终动作。同时,Feng [45] 采用交叉注意机制整合多模态感官输入(例如听觉、视觉和触觉数据)来产生操作动作。他们的交叉注意网络通过使用人类演示的监督学习进行训练。此外,一些研究将 IL 与 RL 相结合,以利用 RL 的灵活性和源自 IL 的复杂任务规划能力 [109, 121, 136]。这种组合对于学习更复杂的任务很有用。
IL 的一个关键挑战是不同机器人平台上动作数据的稀缺性。最近的研究通过利用大规模人类动作视频来增强机器人学习来解决这个问题 [49, 58, 94, 186]。这些方法涉及将视频中的人体姿势重定位到机器人姿势,以扩展用于策略学习的数据集。
扩散策略 (DP)。DP [26] 作为强大的 IL 方法引起了广泛关注。它们利用去噪扩散概率模型 (DDPM) [59](一种旨在逆转多步骤噪声过程(去噪)的框架)根据诸如 2D 图像之类的观察结果生成用于操作任务的动作数据。扩散模型在模仿学习 (IL) 的优化方面表现出色,因为它们具有稳定的训练过程,并且能够通过将动作生成过程分解为更小的可校正步骤来实现更平滑的优化。在扩散模型的基础上,Liu 提出 RDT-1B [105],它将扩散策略的输出动作空间推广到与不同的机器人硬件平台兼容,从而增强学习知识在各种硬件配置之间的可迁移性。此外,近期扩散策略研究并非仅仅依赖于二维表征,而是专注于学习基于点云的三维表征来调节动作生成过程。这种架构被称为 3D 扩散策略 [195],在将操作任务扩展到更复杂的环境中表现出色。它已被广泛应用于众多研究 [66, 139, 194, 195],并在各种操作场景中展现出更佳的性能和泛化能力。将扩散模型集成到策略学习中,可以对复杂的高维动作分布进行建模,从而实现细粒度操作的学习。
视觉语言模型 (VLM)。VLM 在视觉-语言推理方面表现出色。因此,一些研究已将 VLM 用于移动端操作 [39, 104, 189, 200]。例如,EMMA [189] 将视觉观察转换为文本描述,并使用大语言模型 (LLM) 生成导航和目标操作的动作文本描述。类似地,PaLM-E [39] 迭代地将从观察图像生成的文本指令 token 和嵌入集成到 LLM 的提示中,使它们能够推理完成任务所需的动作描述。此外,对于移动设备操控,OK-Robot [104] 首先扫描房屋以创建包含 CLIP 嵌入的导航地图,然后根据语言指令与 CLIP 嵌入之间的对应关系定位目标。接下来,系统使用 A* 算法导航到该位置,并使用预训练的 AnyGrasp [43] 生成用于操控的抓取建议。此外,AlignBot [200] 对 LLaVA [101, 102] 进行微调,将用户偏好转换为指令格式的提示。当用户提供指令时,这些提示会被输入到 GPT-4 [1] 中以生成任务计划,随后该规划会被传递给动作策略,例如 AnyGrasp 或基于 Transformer 的动作分块 (ACT),以供执行。
视觉-语言-动作模型 (VLA)。Robotics Transformer-1 (RT-1) [17] 是 VLA 的基础。它以与语言相同的格式对动作进行 token 化,并在端到端 Transformer 架构中输出一组动作,包括从指令和观察的动作到夹持器和底座的位置和旋转。VLA 扩展此框架,使 VLM 能够直接从复杂的高级指令生成低级动作。第一个 VLA RT-2 [210] 结合了高级语义理解(PaLM-E,从互联网规模的数据中学习)和低级控制(RT-1,从小规模的机器人演示中学习)。它使用 PaLM-E 将指令分解为步骤,以便 RT-1 生成动作。在 RT-2 的基础上,RT-H [13] 在语言查询和动作查询之间引入语言-动作层次结构。在该框架中,RT-H 学习两种基于 VLM 的策略:𝜋_h(𝑙_𝑎𝑐𝑡 |o,𝑙_𝑖𝑛𝑠) 和 𝜋_𝑙 (a|o,𝑙_𝑖𝑛𝑠,𝑙_𝑎𝑐𝑡),其中 o 表示观察图像,𝑙_𝑖𝑛𝑠 表示语言任务描述,𝑙_𝑎𝑐𝑡 表示语言动作描述(例如,向前移动手臂),a 表示动作(位置、方向、夹持动作等)。对于细粒度操作任务,Pan [127] 开发一个在 VLA 控制和扩散策略之间切换的框架,以同时处理高级任务规划和精细运动控制。在这种方法中,OpenVLA [84] 用于接近目标物体,之后策略切换到扩散策略以实现更精细的交互和抓取,然后返回 VLA 规划下一个动作。Diffusion-VLA [171] 采用了类似的方法,它将 LLM 与扩散模型相结合,用于精细操作任务。此外,𝜋0 [15] 采用流匹配技术以动作块的形式生成连续的运动动作,从而允许高频执行以生成更精确的运动命令。为了应对跨机器人硬件的代理泛化挑战,RT-X [31] 在 Open X-Embodiment (OXE) 存储库上训练通用策略,该存储库包含来自 22 个不同实施例的数据。RT-X 策略可适应各种机器人硬件平台。随后,OpenVLA [84] 作为 RT-X 的开源版本开发出来。最近,NVIDIA 的一项名为 GROOT N1 [14] 的研究为人形机器人引入一种双系统架构,它结合了基于 Eagle-2 VLM 主干 [97] 的视觉语言模块(用于 10 Hz 的语义推理)和扩散 Transformer (DiT) 模块 [131](用于 120 Hz 的动作生成)。该模型使用流匹配损失函数,在包含网络规模真人视频、通过物理模拟器和神经视频模型生成的合成轨迹以及真实机器人遥操作数据的数据集上进行训练。GROOT N1 采用逆动力学模型 (IDM) 对未标注视频中的动作进行伪标记,从而能够在桌面机械臂和人形机器人上进行跨具身训练。
等变策略学习。VLM 和扩散策略均未明确学习泛化几何变换。相比之下,EquivAct [184] 利用 EFEM 编码器 [91] 从一小组演示中学习 SIM(3) 等变视觉运动策略。具体而言,EquivAct 使用编码器从输入观测值(例如场景点云)中获取 SIM(3) 等变表征;然后将该表征输入到基于 VNN 的动作网络中,以生成末端执行器命令(例如,打开/关闭和速度)。该策略网络使用人类演示进行训练。此外,Equibot [183] 将相同的 SIM(3) 等变编码器与 SIM(3) 等变扩散策略相结合,以处理多模态训练数据并预测未来动作。
8. 未来的研究
高效学习。虽然 Lin [99] 证明,扩展数据可以使单任务策略泛化到新的环境和目标,但这种方法与生物系统的效率形成鲜明对比。在生物系统中,人类和动物即使经验很少也能快速适应新任务。未来研究的一个有希望的途径在于开发算法和系统创新,以提高学习效率,例如持续学习。持续学习最近已显示出使机器人能够从演示中持续学习的潜力,从而减少每个任务对大量数据的需求 [5, 202]。
持续学习。持续学习 [23, 167] 对于具身智体学习适应动态环境并保留先验知识至关重要,尤其是在极长记忆网络中,灾难性遗忘是一个挑战 [98]。新兴方法包括重放机制(例如弹性权重合并 (EWC) [85]、元学习 [46])和记忆架构(例如 Titans 神经长期记忆模块 [12])。近期研究进一步推进了这一领域:NeSyC [29] 引入了一种神经符号持续学习器,它将神经推理和符号推理整合到开放领域的复杂任务中;而Zheng [203] 则为基于 LLM 的智体提供了终身学习的路线图,强调感知、记忆和动作模块,以增强适应性并减少遗忘。
神经微分方程 (ODE)。具身化人工智能任务(例如倒液体)需要连续动力学建模,这对离散方法来说具有挑战性。神经微分方程 [21] 能够实现连续状态演化,从而改进了在物体质量等变量下的轨迹预测和控制。液体网络 [57] 可以处理不规则输入(例如摄像头),实现实时自适应。尽管精准操控前景光明,但实证验证仍然至关重要。评估指标。当前的评估指标过于以目标为导向(例如成功率、路径长度)。建议受人类任务执行启发的程序质量指标,例如能量效率(最小化能量消耗)和平滑度(量化轨迹的突变)。近期的基准测试,例如 Jiang 提出的探索感知的具身问答框架 [77],通过强调任务评估中的探索性,扩展了这一范围,从而对具身人工智能的性能进行了更全面的评估。