多模态大模型下的具身智能！全面汇总：感知、交互、推理和仿真

最新推荐文章于 2025-03-31 08:18:02 发布

江湖人称麻花滕

最新推荐文章于 2025-03-31 08:18:02 发布

阅读量1.4w

点赞数 42

文章标签：交互搜索引擎大数据 hadoop spark transformer 深度学习

本文链接：https://blog.csdn.net/m0_59235699/article/details/142745621

版权

写在前面&动机和出发点

具身人工智能（Embodied AI）对于实现通用人工智能（AGI）至关重要，并且是连接网络空间和物理世界的各种应用的基础。最近，由于多模态大模型（MLMs）和世界模型（WMs）在感知、交互和推理能力方面表现突出，它们受到了广泛关注，成为了具身智能体大脑的潜在架构。然而，在MLMs时代，尚没有针对具身人工智能的全面综述。在本综述中，我们对具身人工智能的最新进展进行了全面探讨。我们的分析首先通过具身机器人和模拟器的代表性前沿工作，全面了解研究重点和局限性。然后，我们分析了四个主要研究目标：1）具身感知，2）具身交互，3）具身智能体，以及4）从模拟到现实的适应，涵盖了最先进的方法、基本范式和全面的数据集。此外，我们还探讨了虚拟和真实具身智能体中MLMs的复杂性，强调了它们在促进动态数字和物理环境中交互方面的重要性。最后，我们总结了具身人工智能的挑战和局限性，并讨论了其潜在的未来方向。我们希望本综述能为研究界提供基础性参考，并激发持续创新。

与以往工作的差异：尽管已经有一些关于具身人工智能（Embodied AI）的综述文章，但其中大多数都已过时，因为它们是在大约2023年开始的多模态语言模型（MLMs）时代之前发表的。在2023年之后，只有一篇综述文章，而且该文章仅专注于视觉-语言-动作具身AI模型。然而，多模态语言模型（MLMs）、世界模型（WMs）和具身agent（Embodied Agents）并未得到全面考虑。此外，具身机器人和模拟器领域的最新进展也被忽视了。为了弥补这一快速发展领域中综合性综述文章的稀缺，提出了这篇全面的综述，涵盖了代表性的具身机器人、模拟器以及四个主要研究方向：具身感知、具身交互、具身agent和从模拟到真实的机器人控制。

具身机器人

具身agent（Embodied Agent）积极与物理环境进行交互，并涵盖了广泛的实体形式，包括机器人、智能家电、智能眼镜、自动驾驶汽车等。其中，机器人是最突出的实体形式之一。根据应用的不同，机器人被设计成各种形式，以利用其硬件特性来完成特定任务。

具身仿真

具身模拟器对于具身智能至关重要，因为它们提供了成本效益高的实验，通过模拟潜在的危险场景来确保安全，能够在不同环境中进行测试以实现可扩展性，具备快速原型制作能力，可供更广泛的研究社区使用，为精确研究提供受控环境，为训练和评估生成数据，并为算法比较提供标准化基准。为了使agent能够与环境交互，有必要构建一个逼真的模拟环境。这需要考虑环境的物理特性、物体的属性以及它们之间的相互作用。模拟平台主要分为两类：基于底层模拟的通用模拟器和基于真实场景的模拟器。

1）General Simulator

真实环境中的物理交互和动态变化是不可替代的。然而，在物理世界中部署具身模型往往成本高昂且面临诸多挑战。通用模拟器提供了一个紧密模拟物理世界的虚拟环境，允许算法开发和模型训练，从而在成本、时间和安全性方面提供了显著优势。

2）Real-Scene Based Simulators

在家庭活动领域实现通用具身agent一直是具身智能研究的主要焦点。这些具身agent需要深入理解人类的日常生活，并在室内环境中执行复杂的具身任务，如导航和交互。为了满足这些复杂任务的需求，模拟环境需要尽可能接近现实世界，这对模拟器的复杂性和真实性提出了很高的要求。这导致了基于现实世界环境的模拟器的出现。这些模拟器大多从现实世界中收集数据，创建逼真的3D资产，并使用如UE5和Unity等3D游戏引擎构建场景。丰富且逼真的场景使得基于现实世界环境的模拟器成为研究家庭活动中具身人工智能的首选。

具身感知

与仅仅识别图像中的物体不同，具有具身感知能力的主体必须在物理世界中移动并与环境互动。这要求对3D空间和动态环境有更深的理解。具身感知需要视觉感知和推理，理解场景内的3D关系，并基于视觉信息预测和执行复杂任务。

1）主动视觉感知

主动视觉感知系统需要基本能力，如状态估计、场景感知和环境探索。如图7所示，这些能力已在视觉同步定位与地图构建（vSLAM）、三维场景理解和主动探索等领域得到了广泛研究。这些研究领域有助于开发鲁棒的主动视觉感知系统，从而在复杂、动态的环境中促进更好的环境交互和导航。表IV中总结每部分提到的方法。

2）3D Visual Grounding

与传统仅在平面图像范围内工作的二维视觉定位（VG）不同，三维VG结合了深度、透视和物体之间的空间关系，为智能体与环境交互提供了更强大的框架。三维VG的任务是使用自然语言描述在三维环境中定位物体。如表V所示，最近的三维视觉定位方法大致可分为两类：两阶段方法和一阶段方法。

3） Visual Language Navigation

视觉语言导航（VLN）是具身智能中的一个关键研究问题，旨在使智能体能够按照语言指令在未见过的环境中导航。VLN要求机器人理解复杂多样的视觉观测，并同时解释不同粒度的指令。VLN的输入通常包括两部分：视觉信息和自然语言指令。视觉信息可以是过去轨迹的视频或一系列历史-当前观测图像。自然语言指令包括具身智能体需要到达的目标或预期要完成的任务。具身智能体必须利用上述信息从候选动作列表中选择一个或多个动作，以满足自然语言指令的要求。

成功率（SR）、轨迹长度（TL）和成功加权路径长度（SPL）是VLN中最常用的指标。其中，SR直接反映了具身智能体的导航性能，TL反映了导航效率，而SPL则结合了两者来指示具身智能体的整体性能。下面是对应数据集和方法。

随着大型语言模型（LLMs）的惊人表现，视觉语言导航（VLN）近期取得了巨大进展，其方向和重点也受到了深刻影响。VLN方法可以分为两个方向：基于记忆理解和基于未来预测。

4）触觉感知

触觉传感器为智能体提供了诸如纹理、硬度和温度等详细信息。对于同一动作，从视觉和触觉传感器中学习到的知识可能是相关且互补的，这使得机器人能够充分掌握手中的高精度任务。因此，触觉感知对于物理世界中的智能体至关重要，并且无疑增强了人机交互。

对于触觉感知任务，智能体需要从物理世界中收集触觉信息，然后执行复杂任务。如图10所示，我们首先介绍现有的触觉传感器类型及其数据集，然后讨论触觉感知中的三个主要任务：估计、识别和操纵。

传感器设计：人类触觉的原理是皮肤在被触摸时会改变形状，其丰富的神经细胞会发送电信号，这也是设计触觉传感器的基础。触觉传感器设计方法可分为三类：非视觉基、视觉基和多模态。非视觉基触觉传感器主要利用电气和机械原理，主要记录基本、低维的感官输出，如力、压力、振动和温度。

数据集相关：

触觉感知具有广泛的应用，可分为三类：估计、精确的机器人操作和多模态识别任务。

具身交互

具身交互任务指的是智能体在物理或模拟空间中与人类和环境进行交互的场景。典型的具身交互任务包括具身问答（EQA）和具身抓取。

1）Embodied Question Answering

对于EQA任务，智能体需要从第一人称视角探索环境，以收集回答给定问题所需的信息。具有自主探索和决策能力的智能体不仅要考虑采取哪些行动来探索环境，还要确定何时停止探索以回答问题。现有的工作侧重于不同类型的问题，其中一些如图11所示。

数据集：在真实环境中进行机器人实验往往受到场景和机器人硬件的限制。作为虚拟实验平台，模拟器为构建具身问答数据集提供了合适的环境条件。在模拟器中创建的数据集上训练和测试模型可以显著降低实验成本，并提高模型在真实机器上部署的成功率。这里简要介绍了几种具身问答数据集，这些数据集在表IX中进行了总结。

具身问答任务主要涉及导航和问答两个子任务，其实施方法大致可分为两类：基于神经网络的方法和基于大型语言模型/视觉语言模型（LLMs/VLMs）的方法。

神经网络方法。在早期的研究中，研究人员主要通过构建深度神经网络来解决具身问答任务。他们使用模仿学习和强化学习等技术来训练和微调这些模型，以提高性能。

近年来，大型语言模型（LLMs）和视觉语言模型（VLMs）不断取得进展，并在各个领域展现出了卓越的能力。因此，研究人员试图将这些模型应用于解决具身问答任务，而无需进行任何额外的微调。Majumdar等人探索了使用大型语言模型（LLMs）和视觉语言模型（VLMs）来解决情景记忆EQA（EM-EQA）任务和主动EQA（AEQA）任务。对于EM-EQA任务，他们考虑了盲LLMs、带有情景记忆语言描述的苏格拉底式LLMs、带有构建场景图描述的苏格拉底式LLMs以及处理多个场景帧的VLMs。A-EQA任务在EM-EQA方法的基础上，通过基于边界的探索（FBE）进行了扩展，以实现与问题无关的环境探索。其他一些工作也采用了基于边界的探索方法来识别后续探索的区域并构建语义地图。他们利用共形预测或图像文本匹配来提前结束探索，以避免过度探索。Patel等人强调了任务中的问答方面。他们利用多个基于LLMs的agent来探索环境，并使他们能够独立地用“是”或“否”来回答问题。这些单独的响应被用来训练一个中央答案模型，该模型负责聚合响应并生成稳健的答案。

性能评估通常基于两个方面：导航和问答。在导航方面，许多工作遵循Das等人介绍的方法，并使用诸如导航完成时到目标对象的距离（dT）、从初始位置到最终位置到目标距离的变化（d∆）以及在该集合中任意时刻到目标的最小距离（dmin）等指标来评估模型的性能。这些测试在距离目标10、30或50个动作时进行。还有一些工作基于诸如轨迹长度、目标对象的交并比（IoU）等指标进行测量。对于问答方面，评估主要涉及真实答案在答案列表中的平均排名（MR）和答案的准确性。最近，Majumdar等人引入了基于大型语言模型（LLM）的综合正确性度量（LLM-Match）概念，以评估开放词汇答案的准确性。此外，他们通过将agent路径的归一化长度作为正确性度量的权重来评估效率。

局限性：a) 数据集：构建数据集需要大量的人力和资源。此外，目前仍然缺少大规模数据集，且不同数据集评估模型性能的指标各不相同，这使得性能测试和比较变得复杂。b) 模型：尽管大型语言模型（LLMs）带来了进步，但这些模型的性能仍然远远落后于人类水平。未来的工作可能更多地关注于有效地存储agent探索的环境信息，并引导他们根据环境记忆和问题规划行动，同时提高他们行动的可解释性。

2）Embodied Grasping

除了与人类进行问答交互外，具身交互还涉及根据人类指令执行操作，如抓取和放置物体，从而完成机器人、人类和物体之间的交互。具身抓取需要全面的语义理解、场景感知、决策制定和稳健的控制规划。具身抓取方法将传统的机器人运动学抓取与大型模型（如大型语言模型）和视觉语言基础模型相结合，使agent能够在多感官感知下执行抓取任务，包括视觉主动感知、语言理解和推理。图12（b）展示了人机物交互的概述，其中agent完成了具身抓取任务。

具身agent

agent被定义为一种能够感知其环境并采取行动以实现特定目标的自主实体。最近，多模态语言模型（MLMs）的进展进一步扩展了agent在实际场景中的应用。当这些基于MLM的agent被嵌入到物理实体中时，它们可以有效地将其能力从虚拟空间转移到物理世界，从而成为具身agent。图13展示了具身agent发展的时间线概述。为了使具身agent能够在信息丰富且复杂的现实世界中运行，已经开发了具有强大多模态感知、交互和规划能力的具身agent，如图14所示。为了完成任务，具身agent通常涉及以下过程：1）将抽象且复杂的任务分解为具体的子任务，这被称为高级具身任务规划。2）通过有效利用具身感知和具身交互模型或利用基础模型的策略功能，逐步实施这些子任务，这被称为低级具身动作规划。值得注意的是，任务规划涉及在行动前进行思考，因此通常在网络空间中进行考虑。相比之下，动作规划必须考虑与环境的有效交互，并将此信息反馈给任务规划器以调整任务规划。因此，对于具身agent来说，将其能力从网络空间对齐并推广到物理世界至关重要。

Sim-to-Real适应

具身人工智能中的“模拟到现实”适应指的是将在模拟环境（网络空间）中学习到的能力或行为转移到现实世界场景（物理世界）中的过程。这涉及验证和改进在模拟中开发的算法、模型和控制策略的有效性，以确保它们在物理环境中能够稳健且可靠地运行。为了实现从模拟到现实的适应，具身世界模型、数据收集和训练方法以及具身控制算法是三个基本组成部分。

1） Embodied World Model

“Sim-to-Real”（从模拟到现实）涉及在模拟中创建与真实世界环境非常相似的世界模型，这有助于算法在迁移时更好地泛化。世界模型方法旨在构建一种端到端模型，该模型通过预测生成性或预测性方式中的下一个状态来做出决策，从而将视觉映射到动作，甚至将任何事物映射到任何事物。这种世界模型与VLA（视觉-语言-动作）模型之间的最大区别在于，VLA模型首先在大规模互联网数据集上进行训练，以实现高级突发能力，然后再与真实世界的机器人数据进行协同微调。相比之下，世界模型则完全基于物理世界的数据从头开始训练，随着数据量的增加逐渐发展出高级能力。然而，它们仍然是低级的物理世界模型，与人类神经反射系统的机制有些相似。这使得它们更适合于输入和输出都相对结构化的场景，如自动驾驶（输入：视觉；输出：油门、刹车、方向盘）或物体分拣（输入：视觉、指令、数字传感器；输出：抓取目标物体并将其放置在目标位置）。然而，它们不太适合泛化到非结构化、复杂的实体任务。

学习世界模型是物理模拟领域的一个有前景的方向。与传统模拟方法相比，它提供了显著的优势，如能够处理不完整信息的交互推理、满足实时计算需求，并随着时间的推移提高预测准确性。这种世界模型的预测能力至关重要，它使机器人能够发展出在人类世界中操作所需的物理直觉。如图15所示，根据世界环境的学习流程，世界模型可以分为基于生成的方法、基于预测的方法和知识驱动的方法。我们在表XI中简要总结了所提到的方法。

2）数据收集和训练

对于从模拟到现实的适应，高质量的数据至关重要。传统的数据收集方法涉及昂贵的设备、精确的操作，既耗时又费力，而且往往缺乏灵活性。最近，已经提出了一些高效且成本效益高的方法来收集高质量的演示数据并进行训练。图16展示了来自现实世界和模拟环境的演示数据。

3） Embodied Control

具身控制通过与环境的交互来学习，并利用奖励机制优化行为以获得最优策略，从而避免了传统物理建模方法的缺点。具身控制方法可以分为两种类型：

深度强化学习（DRL）。DRL能够处理高维数据并学习复杂的行为模式，因此适合用于决策和控制。针对双足行走，提出了混合和动态策略梯度（HDPG），允许控制策略同时根据多个标准动态优化。DeepGait是一种用于地形感知行走的神经网络策略，它结合了基于模型的运动规划和强化学习的方法。它包括一个地形感知规划器，用于生成步态序列和基础运动，引导机器人朝目标方向前进，以及一个步态和基础运动控制器，用于在执行这些序列的同时保持平衡。规划器和控制器都使用神经网络函数逼近器进行参数化，并使用深度强化学习算法进行优化。
模仿学习。DRL的一个缺点是需要大量来自多次试验的数据。为了解决这个问题，引入了模仿学习，旨在通过收集高质量的演示来减少数据使用。为了提高数据效率，提出了离线RL + 在线RL的方法来减少交互成本并确保安全性。该方法首先利用离线RL从静态的、预先收集的大型数据集中学习策略。然后，将这些策略部署到真实环境中进行实时交互和探索，并根据反馈进行调整。来自人类演示的代表性模仿学习方法包括ALOHA和Mobile ALOHA。

4）All Robots in One

显著的数据层面限制继续阻碍着稳健、通用型具身agent的发展，特别是在标准化格式、多样性和数据量方面。特定任务的数据集不足以训练这些多功能的agent。尽管像Open X-embodiment这样的预训练数据集看似具有统一的结构，但仍然存在一些关键问题尚未解决。这些问题包括缺乏全面的感官模态——目前没有数据集能够同时整合图像、3D视觉、文本、触觉和听觉输入。此外，多机器人数据集中缺乏统一格式，使得数据处理和加载变得复杂。此外，不同机器人平台之间表示各种控制对象的不兼容性、数据量不足阻碍了大规模预训练，以及缺乏结合模拟数据和真实数据的数据集，这对于解决从模拟到现实的差距至关重要。

为了克服这些挑战，引入了ARIO（All Robots In One），这是一个新的数据集标准，它优化了现有数据集并促进了更通用、更实用的具身智能（embodied AI）agent的开发。ARIO标准以统一格式记录具有不同形态的机器人的控制和运动数据。通过解决机器人动作频率和传感器帧率的差异，时间戳机制标准化了数据采集过程。ARIO的统一格式能够适应来自不同类型机器人的可变数据，并确保精确的时间戳。这一标准使用户能够高效地训练高性能、可泛化的具身人工智能模型，从而使ARIO成为具身智能数据集的理想格式。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述