什么是具身智能？《让网络空间与物理世界保持一致：具身智能综述》

最新推荐文章于 2025-03-15 16:04:50 发布

道心

最新推荐文章于 2025-03-15 16:04:50 发布

阅读量1.4k

点赞数 12

文章标签：人工智能具身智能强化学习机器学习语言模型智能体

本文链接：https://blog.csdn.net/heart_warmonger/article/details/145717888

版权

这篇论文《Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI》详细阐述了具身人工智能（Embodied AI）的发展现状，特别是在多模态大模型（MLM）和世界模型（WM）技术推动下的进展。具身人工智能被认为是实现通用人工智能（AGI）的关键途径之一。本文不仅深入探讨了具身感知、具身交互和具身智能体的最新技术，还分析了虚拟环境与物理环境的对接，展示了具身AI在现实世界中的重要应用。
论文链接: 论文链接
GitHub链接: GitHub链接

引言

具身AI的概念最早由艾伦·图灵提出，旨在创造能够在物理世界中进行智能行为的机器人，而非仅限于虚拟空间中的问题解决。随着多模态大模型（MLM）的崛起，具身AI进入了一个快速发展的新时代。现如今，具身AI不仅仅关注机器人的物理交互能力，还在环境感知、语言理解及复杂任务执行方面取得了突破性的进展。

如图展示了具身智体的典型架构：

如图所示本文综述关于具身智能从数字空间到物理世界所涵盖的体系框架：具身机器人；具身模拟器；具身感知，包括主动视觉感知、3D 视觉基础、视觉语言导航和非视觉感知；具身交互；具身智体，包括具身多模态基础模型和具身任务规划。模拟-到-现实的适应，包括具身世界模型、数据收集和训练以及具身控制。
在这里插入图片描述

具身机器人和模拟器

论文首先讨论了不同类型的具身机器人，包括固定基座机器人、四足机器人、仿生机器人、轮式机器人和人形机器人等。每种类型的机器人都有其特定的应用场景。例如，固定基座机器人适用于高精度的工业制造任务，而四足机器人则因其卓越的适应性，广泛应用于复杂地形的探索和救援任务。
在这里插入图片描述

同时，具身AI的模拟器技术也在快速发展。模拟器为研究人员提供了一个低成本、高安全性的实验平台，使得机器人能够在虚拟环境中进行大量测试，减少了物理实验的风险和费用。通过高保真度的物理仿真，研究人员能够训练机器人在多变的环境中执行任务，进一步提升其在现实世界中的表现。

以下是一些主流的具身AI模拟器平台：

NVIDIA Isaac Sim

链接: NVIDIA Isaac Sim官网
基于Omniverse平台的高性能仿真工具，专为加速机器人开发而设计，提供高质量的视觉效果和精确的物理模拟。

在这里插入图片描述

SAPIEN

SAPIEN官网链接: SAPIEN官网
SAPIEN-GitHub链接: SAPIEN-GitHub
为机器人、刚体和铰接物体提供物理模拟的仿真器，支持强化学习和机器人技术，提供多种渲染模式，包括深度图、法线图等。
在这里插入图片描述

iGibson

iGibson-GitHub链接: iGibson-GitHub
基于Bullet的快速视觉渲染和物理模拟环境，配备多个高质量的可交互场景，适用于训练和评估使用视觉信号的机器人任务。

在这里插入图片描述

Genesis

Genesis-GitHub链接: Genesis-GitHub
综合性的物理仿真平台，旨在为通用机器人、具身人工智能和物理人工智能应用提供支持，具备高保真度的物理仿真和生成式数据引擎。
在这里插入图片描述

这些模拟器为具身AI的研究和应用提供了强大的支持，推动了机器人技术的发展。

具身感知

未来视觉感知的 “北极星” 是以具身为中心的视觉推理和社会智能。如图所示，不同于仅仅识别图像中的目标，具身感知的智体必须在物理世界中移动并与环境互动，这需要对三维空间和动态环境有更透彻的理解。具身感知需要具备视觉感知和推理能力，理解场景中的三维关系，并基于视觉信息预测和执行复杂任务。

主动视觉感知

主动视觉感知系统需要基本的能力，如状态估计、场景感知和环境探索。如图所示，这些功能在vSLAM、3D场景理解和主动探索领域得到了广泛的研究。这些研究领域有助于开发强大的主动视觉感知系统，促进复杂动态环境中的环境交互和导航。
在这里插入图片描述

3D视觉落地

与平面图像的传统2D视觉基础（VG）不同，3D VG结合目标之间的深度、视角和空间关系，为智体与环境交互提供了更强大的框架。3D VG的任务涉及使用自然语言描述在3D环境中定位目标。基本分为两种：单步法和两步法。
在这里插入图片描述
如图是两步（上）和单步（下）3D 视觉接地方法的示意图。（a） 3D 视觉接地示例。（b）两步法包括可能在检测阶段忽略目标的稀疏提议和可能混淆匹配阶段的密集提议。（c）单步方法可以在语言描述的指导下逐步选择关键点（蓝点→红点→绿点）。

视觉-语言导航

视觉语言导航（VLN）是具身智能的一个关键研究问题，旨在使智体能够按照语言指令在未见过的环境中导航。VLN要求机器人理解复杂多样的视觉观察，同时解释不同粒度的指令。VLN的输入通常由两部分组成：视觉信息和自然语言指令。视觉信息可以是过去轨迹的视频，也可以是一组历史当前观测图像。自然语言指令包括具身智体需要达到的目标或具身智体预期完成的任务。所具身化的智体必须使用上述信息从候选列表中选择一个或一系列动作，以满足自然语言指令的要求。

非视觉感知

触觉传感器提供有关目标属性的详细信息，如纹理、硬度和温度。它允许机器人完全完成手头的高精度任务，这对物理世界中的智体至关重要。触觉感知无疑增强人机交互，并具有巨大的前景。
对于触觉感知任务，智体需要从物理世界收集触觉信息，然后执行复杂的任务。如图所示现有类型的触觉传感器及其数据集，触觉感知中的三个主要任务：估计、识别和操纵。
在这里插入图片描述

具身交互

具身交互指的是智体在物理或模拟空间中与人类和环境互动的场景。典型的具身交互任务包括具身问答和具身抓取。
如图所示，在具身问答任务中，智体需要从第一人称视角探索环境，收集回答问题所需的信息；具有自主探索和决策能力的智体不仅要考虑采取哪些行动来探索环境，还需决定何时停止探索以回答问题。
在这里插入图片描述具身问答任务主要涉及导航和问答子任务，实现方法大致分为两类：基于神经网络和基于LLM/VLM。
具身交互除了与人类进行问答交互外，还涉及根据人类指令执行操作，如抓取、放置目标，从而完成机器人、人和目标之间的交互。具身抓取需要全面的语义理解、场景感知、决策和鲁棒控制规划。具身抓取方法将传统的机器人运动学抓取与 LLM、视觉-语言基础模型等大模型相结合，使智体能够在多感知器感知下执行抓取任务，包括视觉主动感知、语言理解和推理。如图展示人-智体-目标交互的概览，其中智体完成具身抓取任务。
在这里插入图片描述

具身智体

智体被定义为能够感知环境并采取行动以实现特定目标的自主实体。多模态大模型的最新进展进一步扩大了智体在实际场景中的应用。当这些基于多模态大模型的智体被具身化为物理实体时，它们能够有效地将其能力从虚拟空间转移到物理世界，从而成为具身智体。为了使具身智体在信息丰富且复杂的现实世界中运行，已经开发出强大的多模态感知、交互和规划能力，如图所示。

在这里插入图片描述
为了完成任务，具身智体通常涉及以下过程，如图所示：
（1）将抽象而复杂的任务分解为具体的子任务，即高层的具身任务规划。
（2）有效利用具身感知和具身交互模型，或利用基础模型的策略函数，逐步实施这些子任务，即低层的具身行动规划。
在这里插入图片描述
值得注意的是，任务规划涉及在行动前进行思考，因此通常在数字空间中考虑。相比之下，行动规划必须考虑与环境的有效互动，并将这些信息反馈给任务规划器以调整任务规划。因此，对于具身智体来说，将其能力从数字空间对齐并推广到物理世界至关重要。

仿真到现实的适应

具身智能中的仿真到现实的适应（Sim-to-Real adaptation），指的是将模拟环境（数字空间）中学习到的能力或行为转移到现实世界（物理世界）中的过程。该过程包括验证和改进在仿真中开发的算法、模型和控制策略的有效性，以确保它们在物理环境中表现得稳定可靠。为了实现仿真-到-现实的适应，具身世界模型、数据收集与训练方法以及具身控制算法是三个关键要素。

具身世界模型

在模拟中创建与现实世界环境非常相似的世界模型，帮助算法在迁移时更好地泛化。世界模型的方法是构建一个端到端的模型，以生成或预测的方式预测下一个状态来做出决策，将视觉映射到行动，甚至将任何东西映射到任何东西。这种世界模型和VLA模型之间最大的区别在于，VLA模型首先在大规模互联网数据集上进行训练，以实现高级涌现能力，然后与现实世界的机器人数据进行微调。相比之下，世界模型是在物理世界数据上从头开始训练的，随着数据量的增加，逐渐发展出高级功能。然而，它们仍然是低级的物理世界模型，在某种程度上类似于人类神经反射系统的机制。这使得它们更适合输入和输出都相对结构化的场景，例如自动驾驶（输入：视觉，输出：油门、刹车、方向盘）或目标分类（输入：视力、指令、数字传感器，输出：抓取目标物体并将其放置在目标位置）。它们不太适合泛化到非结构化、复杂的具体任务。
学习世界模型在物理仿真领域具有广阔的应用前景。与传统的仿真方法相比，它具有显著的优势，例如能够推理不完整信息的交互，满足实时计算要求，并随着时间的推移提高预测精度。这种世界模型的预测能力至关重要，使机器人能够发展在人类世界中操作所需的物理直觉。如图所示，根据世界环境的学习流水线，它们可分为基于生成的方法、基于预测的方法和知识驱动的方法。
在这里插入图片描述

数据收集和训练

对于仿真-到-现实的适应，高质量的数据很重要。传统的数据收集方法包括昂贵的设备、精确的操作，耗时且实验室密集，往往缺乏灵活性。最近，已经提出一些高效且成本效益高的方法来收集和训练高质量的演示数据。如图显示了来自真实世界和模拟环境的演示数据：
在这里插入图片描述

具身控制

具身控制通过与环境的交互进行学习，并使用奖励机制优化行为以获得最优策略，从而避免了传统物理建模方法的缺点。具体的控制方法可分为两类：
①深度强化学习 (DRL)
②模仿学习

如图展示仿真-到-现实适应的五种不同流水线范式：“Real2Sim2Real”通过重建真实场景来缩小差距。“TRANSIC”通过人工纠正干预来弥补仿真与现实的转移差距。“域随机化”通过模拟环境多样性来增强模型转移适应性。“系统识别”提高了仿真与现实环境的相似性，从而减轻了仿真与现实之间的差距。“Lang4Sim2Real”使用自然语言来连接两个域，学习不变的图像表示并缩小视觉差距。
在这里插入图片描述

结论

尽管具身人工智能发展迅速，但它面临着一些挑战，并提出了令人兴奋的未来方向。

高质量的机器人数据集：获得足够的现实世界机器人数据仍然是一个重大挑战。收集这些数据既费时又耗费资源。仅依靠仿真数据最糟糕的是仿真-到-现实的差距问题。创建多样化的现实世界机器人数据集需要各机构之间密切而广泛的合作。此外，开发更逼真、更高效的模拟器对于提高模拟数据的质量至关重要。目前的工作RT-1使用基于机器人图像和自然语言命令的预训练模型。RT-1在导航和抓取任务中取得了良好的效果，但获取现实世界的机器人数据集非常具有挑战性。为了构建能够在机器人技术中跨场景和跨任务应用的通用化实体模型，必须构建大规模数据集，利用高质量的模拟环境数据来辅助现实世界的数据。

高效利用人类演示数据：高效利用人类展示数据涉及利用人们展示的动作和行为来训练和改进机器人系统。这个过程包括从大规模、高质量的数据集中收集、处理和学习，在这些数据集中，人类执行机器人想要学习的任务。目前的工作R3M使用动作标签和人类演示数据来学习可泛化表征，在一些机器人任务中显示出很高的成功率，但复杂任务的效率仍有待提高。因此，重要的是有效地利用大量非结构化、多标签和多模态的人类演示数据，结合动作标签数据来训练能够在相对较短的时间内学习各种任务的实体模型。通过有效地使用人类演示数据，机器人系统可以实现更高水平的性能和适应性，使其能够在动态环境中执行复杂的任务。

复杂环境认知：复杂环境认知是指具身智体在物理或虚拟环境中感知、理解和导航复杂现实世界环境的能力。基于广泛的常识，Say-Can利用了预训练LLM模型的任务分解机制，该机制在简单的任务规划中严重依赖大量的常识，但缺乏对复杂环境中长期任务的理解。对于非结构化的开放环境，目前的工作通常依赖于预训练LLM的任务分解机制，使用广泛的常识知识进行简单的任务规划，还缺乏对特定场景的理解。提高复杂环境中的知识迁移和泛化能力至关重要。一个真正通用的机器人系统应该能够在各种未见过的场景中理解和执行自然语言指令。这需要开发适应性强、可扩展的嵌入式智体架构。

长期任务执行：执行单个指令通常涉及机器人的长期任务，其中涉及重新排列室内东西、扫地、擦桌子等活动。成功完成这些任务需要机器人能够在较长的时间跨度内计划和执行一系列低级动作。虽然目前的高级任务规划已经取得了初步的成功，但由于缺乏对具体任务的调整，他们在各种情况下往往被证明是不够的。应对这一挑战需要培养具备强大感知能力和大量常识知识的高效规划。

因果关系发现：现有的数据驱动的具身智体根据数据中的内在相关性做出决策。然而，这种建模方法不允许模型真正理解知识、行为和环境之间的因果关系，从而导致有偏见的策略。这使得很难确保它们能够以可解释、稳健和可靠的方式在现实环境中运行。因此，具身智体由世界知识驱动，能够自主进行因果推理，这一点很重要。通过交互理解世界，并通过溯因推理学习其工作原理，我们可以进一步提高多模态具身智体在复杂现实环境中的适应性、决策可靠性和泛化能力。

持续学习：在机器人应用中，持续学习对于在不同环境中部署机器人学习策略至关重要，但它仍然是一个很大程度上未被探索的领域。虽然最近的一些研究考察了持续学习的子主题，如增量学习、快速运动适应和人类在环学习，但这些解决方案通常是为单一任务或平台设计的，还没有考虑基础模型。开放式研究问题和可行的方法包括：1）在对最新数据进行微调时，将不同比例的先验数据分布混合到所有灾难性遗忘中，2）从先验分布或课程中开发高效的原型，用于学习新任务时的任务推理，3）提高在线学习算法的训练稳定性和样本效率，4）确定将大容量模型无缝整合到控制框架中的原则性方法，可能通过分层学习或慢速快速控制，用于实时推理。

统一评估基准：虽然存在许多用于评估低级控制策略的基准，但它们在评估的技能方面往往存在很大差异。此外，这些基准测试中包含的对象和场景通常受到模拟器约束的限制。为了全面评估实体模型，需要使用逼真的模拟器进行包含各种技能的基准测试。关于高级任务规划，许多基准侧重于通过问答任务评估规划能力。然而，一种更可取的方法是同时评估高级任务规划和低级控制策略，以执行长期任务并衡量成功率，而不是仅仅依赖于对规划的孤立评估。这种综合方法对嵌入式人工智能系统的能力进行了更全面的评估。

总之，具身智能使智体能够感知、认知并与数字空间和物理世界中的各种物体互动，显示了其在实现通用人工智能方面的重要意义。