论文速读《Multi-Agent Embodied AI: Advances And Future Directions：多智体具身技术进展与未来发展方向》

最新推荐文章于 2025-05-14 14:43:48 发布

敢敢のwings

最新推荐文章于 2025-05-14 14:43:48 发布

阅读量1k

点赞数 23

分类专栏：大模型具身智能文章标签：人工智能

本文链接：https://blog.csdn.net/lovely_yoshino/article/details/147889856

版权

具身智能同时被 2 个专栏收录

38 篇文章

订阅专栏

大模型

22 篇文章

订阅专栏

论文链接：https://arxiv.org/pdf/2505.05108

1. 简介

在人工智能快速发展的今天，具身人工智能(Embodied AI)作为一个新兴的研究领域正吸引着越来越多的关注。本文将对北理工、南大、西安交大、浙大和同济大学联合发表的《Multi-Agent Embodied AI: Advances And Future Directions》进行全面解读，为您揭示多智体具身AI的前沿进展和未来方向。

具身人工智能(Embodied AI)在智能时代扮演着关键角色。它不同于传统AI，强调人工智能系统与物理实体的融合，使其能够通过传感器感知环境、通过执行器与环境交互，并根据现实世界的反馈进行学习和调整。这种能力使具身AI系统能够在动态且不可预测的环境中有效执行任务。

随着深度学习、强化学习和大语言模型等技术的成熟，具身AI已成为学术界和产业界的热点领域，应用范围涵盖机器人、医疗保健、交通运输和制造业等多个领域。然而，目前的研究主要集中在单智体系统上，这类系统通常假设环境是静态的、封闭的，而真实世界的具身AI面临的场景往往更为复杂。

在现实环境中，智体不仅需要与周围环境交互，还需要与其他智体协作，这就需要复杂的机制来实现自适应、实时学习和协作解决问题的能力。虽然对多智体系统的研究兴趣日益增长，但现有研究范围仍然较窄，通常依赖于简化模型，难以捕捉多智体具身AI在动态开放环境中的全部复杂性。

2. 主要贡献

该综述论文的主要贡献在于系统全面地回顾了多智体具身AI这一新兴领域的最新进展。文章首先介绍了基础概念，包括多智体系统(MAS)、强化学习(RL)和相关方法。然后讨论了单智体情境中的具身AI，清晰概述了核心定义、主要研究方向、代表性方法和已建立的评估基准。

在此基础上，论文将讨论扩展到多智体具身AI领域，重点介绍了广泛使用的技术，并研究了专为多智体场景设计的近期突出基准。最后，作者总结了主要贡献，对多智体具身AI的未来发展提出了深刻见解，旨在促进这一前景广阔且快速发展的领域的进一步研究和创新。

在这里插入图片描述

图1: 本次调查的概述

3. 相关工作：具身AI的基础理论与技术

3.1 具身人工智能的定义与特点

具身人工智能是指配备物理躯体的智体，能够通过持续交互感知、采取行动并适应环境。这一概念可追溯至艾伦·图灵在20世纪50年代的早期主张：真正的智能必须源于感官和运动体验，而非纯粹的符号计算。这一理念在20世纪80年代通过具身认知理论得到进一步形式化，该理论认为认知本质上是由智体的物理形态及其与世界的交互所塑造的。

在系统层面，具身AI架构通常由三个紧密集成的组件组成：感知、认知和行动。智体使用物理传感器从环境获取实时信息，这些传感数据由认知模块处理，支持推理、解释和规划，随后决策结果通过执行器转化为物理动作，改变环境并产生新的感知输入，形成感知-认知-行动循环。

在这里插入图片描述

图2：具身人工智能的示意图

具身AI的三个基本特性包括：

具身化：智体拥有物理躯体，可以感知、移动并在现实世界中行动。这些智体形式多样，包括人形机器人、四足机器人、自主地面车辆和无人机。物理躯体不仅是智体与环境交互的媒介，也是约束和实现其行为能力的结构基础。身体的形态、感觉运动保真度和驱动力共同定义了智体可能交互的范围和粒度，从而塑造了情境智能的范围。
交互性：基于这一物理基础，具身智能通过与周围环境的持续闭环交互而产生。从第一人称视角操作，智体参与感知、决策和行动的动态循环。每个行为不仅响应环境刺激，还会改变未来的感官输入，形成一个支持自适应学习的丰富反馈循环。通过这种持续的参与，智体改进其策略，获得特定于任务的能力，并在不同环境中推广行为，从而在现实世界场景中实现稳健的、情境感知的性能。
智能改进：具身人工智能的发展以认知和行为的持续改进能力为特征。这一进步日益得益于大规模多模态模型的集成，这些模型赋予智体语义理解、指令遵循和情境推理能力。这些模型有助于实现小样本学习、情境自适应以及跨任务的知识迁移。随着智体与环境的交互，它会逐步调整其感知输入、决策过程和物理动作，从而立即完成任务，并随着时间的推移，在自主性、适应性和泛化能力方面持续提升。

近年来，生成模型(特别是大语言模型)的发展进一步扩展了具身智体的认知能力，使其能够理解语言指令，将语义知识与物理经验相结合，并执行零样本或少样本自适应。这些发展加速了具身人工智能在机器人、自动驾驶、智能制造和医疗保健等现实世界领域的部署。重要的是，具身人工智能不仅仅是强大的人工智能模型与机器人平台的集成；相反，它代表了一种共同进化的范式，其中智能算法（“大脑”）、物理结构（“身体”）和动态环境共同进化，以支持自适应的具身智能。

3.2 多智体系统(MAS)

多智体系统由多个能够感知环境、独立决策并执行操作的自主智体组成。与传统的集中式控制相比，MAS采用去中心化架构，智体在本地交互的同时实现全局协调。MAS的核心特性包括自主性、去中心化、智体间通信、局部信息访问和动态适应性。这种去中心化设计在可扩展性、容错性和适应性方面具有显著优势，尤其是在动态、部分可观测或非平稳环境中。

根据智体间关系，MAS可分为三种设置：竞争型、合作型和混合型。近年来，MAS研究经历了重大的范式转变，多智体强化学习(MARL)提供了一个强大框架，使智体能够通过交互学习复杂行为。

在这里插入图片描述

图3：三种常见的多智能体系统设置

集中训练与分散执行(CTDE)、参数共享、信用分配和对手建模等技术被广泛应用，基于LLM的智体可以访问海量预训练知识，通过自然语言进行交流，并进行高级推理和抽象，这些能力超越了传统策略驱动系统的局限性。因此，强化学习和基础模型的融合正在重塑MAS格局，为更具通用性、可解释性和与人类一致的智体架构铺平道路。

3.3 最优控制(OC)

最优控制是控制理论的基础分支，设计控制策略以优化特定性能标准。由于OC能够实现全局最优，同时处理多个目标和约束，并在复杂系统中保持鲁棒性，因此在航空航天工程、工业自动化、经济管理和能源系统等领域得到了广泛的应用。

常用方法包括变分法、Pontryagin最大值原理、动态规划和模型预测控制(MPC)。其中MPC在工业界应用最为广泛，其核心思想是在每个时间步求解一个有限范围OC问题，并且仅执行第一个OC动作，通过滚动时域策略实时求解约束优化问题，如下图所示。

在这里插入图片描述

图4：模型预测控制（MPC）的示意图

由于其高效性、实时性和鲁棒性，MPC 已广泛应用于具有多个智体的具体 AI 系统中，例如机器人群的协调控制和无人机 (UAV) 的编队控制。

3.4 强化学习(RL)

强化学习是机器学习的一个基础分支，专注于使智体能够通过与动态环境交互做出连续决策。与需要标记数据的监督学习或揭示未标记数据中隐藏模式的无监督学习不同，RL 以反复试验的过程为基础。通过持续的交互，智体学会选择能够最大化长期累积奖励的行动，并利用来自环境的反馈来不断改进其行为。

强化学习 (RL) 问题的核心通常被形式化为马尔可夫决策过程 (MDP)，而多智体强化学习 (MARL) 则将 RL 扩展到多智体域，通常使用分散式部分可观测马尔可夫决策过程 (Dec-POMDP) 框架建模，如下图所示。

在这里插入图片描述

图5：强化学习（RL）和多智能体强化学习（MARL）的示意图

RL方法主要分为基于价值的方法(如深度Q网络DQN)和基于策略的方法(如DDPG、PPO)。基于价值的方法专注于估计动作价值函数，使智体能够根据预测的未来奖励采取贪婪的行动。相比之下，基于策略的方法直接优化参数化策略，通常结合价值函数来指导学习，特别适用于高维或连续动作空间的环境。

这两种范式都通过不同的架构创新扩展到多智体环境。价值分解方法（如QMIX）学习一个可以分解为各个智体效用的全局价值函数，这种结构支持分散执行，同时支持集中训练。另一方面，基于策略的MARL方法（包括MADDPG和MAPPO）采用集中训练与分散执行(CTDE)框架，在训练过程中采用共享的全局评价器来提供稳定的学习信号，并支持智体之间有效的信用分配，从而增强了合作任务中的协调性。

3.5 分层学习

分层学习将学习过程组织成多个抽象层次，较高层次设定抽象目标，较低层次执行具体子任务。这种分层结构通过将复杂任务分解为更简单的组件，提高了解决复杂任务的效率和可扩展性。

在这里插入图片描述

图6：基于强化学习的（高层次）层次学习与基于大语言模型的（高层次）层次学习的示意图 [77]

分层学习的核心过程通常包含两个阶段：低级策略学习和高级策略学习。低级策略学习旨在掌握基本子任务，通常使用传统的控制方法（例如MPC）或通过端到端强化学习来实现。相比之下，高级策略学习负责协调学习的低级技能，以实现更复杂的目标，这通常通过强化学习或使用LLM进行规划来实现。

在基于强化学习（RL）的高级策略学习中，动作空间被定义为已学习的低级策略集合。然后，使用来自环境的奖励信号训练参数化的高级策略，以有效地选择和排序这些低级技能。相比之下，基于LLM的高级策略学习通常涉及将任务目标和可用的低级策略集作为LLM的输入，LLM然后通过组合和调用适当的低级技能来完成任务，直接生成结构化规划。

3.6 模仿学习(IL)

模仿学习是一种智体通过观察和模仿专家行为来获得任务解决能力的学习范式。与需要手动设计奖励函数来指导学习的强化学习不同，IL 利用专家演示作为直接监督。这种区别使得 IL 在奖励规范模糊、成本高昂甚至不可行的复杂高维环境中尤为优势。主要方法包括行为克隆(BC)、逆强化学习(IRL)和生成对抗模仿学习(GAIL)。

在这里插入图片描述

图7：不同交互式学习方法的示意图

行为克隆(BC)是最直接的技术，将模仿任务视为一个监督学习问题，旨在将观察的状态直接映射到相应的专家动作，如上图(a)所示。为了解决BC的一些局限性，逆强化学习(IRL)采用了一种根本不同的方法，旨在推断专家的底层奖励函数，而不是直接复制他们的行为，如上图(b)所示。与BC和IRL不同，生成对抗模仿学习(GAIL)引入一个对抗性训练框架，无需明确指定奖励，如上图©所示。

总而言之，BC、IRL和GAIL代表了更广泛的IL框架内的互补范式。BC提供了简单有效的基线，IRL通过奖励恢复提供了可解释性和泛化能力，而GAIL则结合了两者的优势，通过对抗学习实现端到端的模仿。选择哪种方法通常取决于样本效率、泛化能力、计算复杂度和可解释性之间的权衡。

3.7 生成模型

生成模型是机器学习的基础范式，旨在捕捉训练数据的底层分布。核心架构框架包括Transformer、扩散模型和状态空间模型(如Mamba)。

在这里插入图片描述

图8：不同生成模型结构的示意图

其中，Transformer架构通过引入一种基于注意机制的机制，使序列中的每个元素能够直接关注其他所有元素，从而消除了对循环或卷积的需求，如上图(a)所示。这种设计有助于实现高效的并行计算，并允许模型捕获全局上下文依赖关系。

与Transformer的离散注意力机制不同，扩散模型提供了一个概率性的、噪声驱动的生成框架，如上图(b)所示。这些模型通过两个阶段运行：一个是正向扩散阶段，它会逐渐用噪声破坏数据；另一个是反向学习阶段，它会从噪声输入中重建数据。

虽然Transformer和扩散模型取得了显著的成功，但这两种架构在扩展到长序列或复杂的生成过程时都遇到了限制。为了应对这些挑战，Mamba架构引入一种基于连续时间SSM的新方法，在长序列处理中实现了线性时间复杂度并提升了效率，如上图©所示。

4. 核心算法：从单智体到多智体的进阶

4.1 单智体具身AI方法

单智体具身AI研究主要分为经典控制与规划方法和基于学习的方法。早期研究依赖于知识驱动、针对特定任务的规划和控制策略，但随着智体越来越多地部署在动态非结构化环境中，基于学习的方法因其适应性和泛化能力成为主流范式。

在这里插入图片描述

Table 1: 单一智能体环境中构建具身人工智能的方法，其中缩写GM指代生成模型

经典控制与规划方法中，基于优化的方法将任务目标建模为目标函数，在受限解空间内搜索最优解。为了在物理世界中完成长远任务，具身智体必须有效地规划和控制其运动，并基于感知和特定任务的输入生成轨迹。经典规划方法大致可分为基于约束、基于采样和基于优化的方法。

基于约束的方法将任务目标和环境条件编码为逻辑约束，将规划领域转化为符号表示，并采用符号搜索等约束求解技术来识别可行的解决方案。然而，这些方法通常侧重于可行性而非解决方案的质量，往往忽略了最优性。基于采样的方法通过随机采样技术（例如快速探索随机树(RRT)及其变体）逐步探索可行解空间，逐步构建树或图结构以发现可行的运动轨迹，从而解决了这些局限性。

为了进一步优化可行域内的运动规划，基于优化的方法将任务目标和性能指标明确建模为目标函数，同时将可行性条件表示为硬约束。代表性的基于优化的方法包括多项式轨迹规划、MPC和OC。例如，通过增强型包含碰撞的运动规划框架可以提高受限环境中的导航效率，如下图所示。

在这里插入图片描述

图9：基于控制的运动规划示意图

基于学习的方法包括端到端学习、分层学习和从演示中学习。传统的控制和规划方法因其能够提供高精度解决方案而长期被用于受限实时决策。然而，这些方法通常计算量大，限制了可扩展性和响应能力，尤其是在高维、非线性或非平稳系统中。为了克服这些限制，基于学习的决策范式越来越受到关注，旨在通过直接从交互式数据中学习来提供具有更高鲁棒性和泛化能力的实时性能。

端到端学习通过强化学习技术，将感知信息直接映射到行动决策，采用神经网络优化整个系统。分层学习结合强化学习和经典控制方法解决复杂任务，如无人机通过摆动门的问题，如下图所示。

在这里插入图片描述

图10：端到端强化学习方法的示意图，其中学习到的策略 $\pi$ 直接与环境进行交互

从演示中学习允许智体直接从专家演示中获取策略，避免显式奖励工程。例如，通过行为克隆可以将绘画策略从模拟器迁移到现实世界的机械臂，如下图所示。

在这里插入图片描述

图11: 采用具身无人机控制示例的分层学习示意图
图12: 从示范中学习到的写作和绘画技能的示意图

基于生成模型的方法利用生成模型的强大表征能力提升具身智能。尽管传统的学习方法取得了进展，但它们往往受限于表征能力，无法处理多目标或多任务决策等复杂场景，存在学习性能不佳、外部先验知识利用效率低以及样本效率低等问题。为了应对这些挑战，研究人员开始探索利用具有更强大表征能力的生成模型，以实现更高效、更灵活的具身智能。

生成模型在具身AI中的应用包括：

端到端控制：生成模型直接输出可执行操作，将其内部先验和预训练知识迁移到具身系统中。
任务规划：利用预训练生成模型的推理能力，通过迭代推理和反思过程生成面向目标的规划。
感知增强：利用Transformer等架构强大的序列处理能力，融合来自不同来源的多模态感知数据。
奖励设计：利用预训练的生成模型克服在复杂现实场景中设计高质量奖励函数的挑战。
数据高效学习：利用生成模型创建世界模型或多样化的模拟环境，提高样本效率。

在这里插入图片描述

图13: 生成模型在体现控制中所扮演的不同角色的示意图

在这里插入图片描述

表2：单智能体具身人工智能测试基准

在这里插入图片描述

图14：表2中列出的所有多体基准的概述

4.2 多智体具身AI方法

多智体具身AI方法主要分为控制与规划方法、基于学习的方法和基于生成模型的方法。现实世界的具身任务通常涉及多个智体或人机协作与竞争。在共享环境中，智体之间的动态交互会产生个体无法独自完成的群体级行为。因此，将为单智体设置设计的方法直接迁移到多智体系统往往效率低下。

在这里插入图片描述

表3：在多智能体环境中构建具身人工智能的方法

多智体控制与规划方法从集中式控制发展到分布式策略，再到分组多智体控制框架。在MAS中，基于控制的方法仍然是在任务约束下实现高精度实时决策的基本方法。早期方法将MAS建模为单个智体，并执行集中式控制和规划，但这些方法面临着巨大的可扩展性挑战。为了解决这个问题，一些方法采用分布式策略，独立控制MAS中的每个智体，使其更适合大规模智体系统。然而，这种分散式方法往往难以解决智体之间的冲突。

为了克服这些局限性，EMAPF提出一个分组多智体控制框架，如下图所示。该框架根据智体的空间接近度动态地对其进行聚类，在每个组内应用集中控制，同时确保组间控制保持独立。这使得大型空中机器人团队能够高效协调。

在这里插入图片描述

图15：基于控制的多智能体轨迹优化示意图

多智体交互学习需要应对异步决策、异构智体和开放环境等挑战：

异步协作：在多智体具身智能中，通信延迟和硬件异构性等挑战常常会干扰智体之间的同步交互和来自真实环境的反馈。为了解决这个问题，ACE引入了宏动作的概念，其中宏动作作为整个MAS的中心目标，各个智体基于此目标做出多个异步决策，如下图所示。

在这里插入图片描述

图16：多智能体异步学习的示意图

异构协作：除了决策时间的差异外，具身MAS的另一个关键区别是智体异构性，指不同智体在感知能力、行动空间、任务目标等方面的差异。例如，在协同制造场景中，自动驾驶汽车可能负责运输货物，而机械臂则负责分拣任务。为了应对这些挑战，HetGPPO和COMAT等方法提出为不同类型的智体使用单独的观测网络和策略网络，如下图所示。

在这里插入图片描述

图17：多智能体异构学习的示意图

开放环境中的自我进化：与明确定义的模拟场景不同，现实世界的具身任务通常发生在开放环境中，其中任务目标、环境因素以及协作模式等关键要素会持续且不可预测地发展。为了应对这些挑战，有研究利用生成模型的强大泛化能力提出创新解决方案。例如，当协作者数量动态变化时，图神经网络(GNN)和Transformer等可扩展架构可以有效地编码交互信息，如下图所示。

在这里插入图片描述

图18：自我演化多智能体学习的示意图

基于生成模型的多智体交互利用生成模型增强多智体决策能力：

多智体任务分配：利用预训练生成模型将任务分解并分配给不同智体。例如，SMART-LLM利用预训练语言模型，首先将给定任务分解为多个并行子任务，然后根据智体的能力对其进行分组，如下图所示。

在这里插入图片描述

图19：基于生成模型的多智能体任务分配示意图

多智体分布式决策：通过多个基于生成模型的智体独立决策与协作。与MARL中经常在复杂任务中失败的独立方法不同，生成模型出色的感知和推理能力使得部署多个基于LLM智体成为可能，这些智体可以独立有效地执行决策和策略评估，如下图所示。

在这里插入图片描述

图20：基于生成模型的多智能体分布式协作示意图

人机协调：利用生成模型改善人机交互与协作。人机协调与人-AI交互(HAI)和人-机交互(HRI)等研究领域密切相关，致力于增强人类与人工智能智能体之间的团队合作。随着多模态大模型（尤其是LLM）的兴起，研究人员开始利用这些模型中蕴含的广泛知识来设计复杂且自适应的人机协作策略，如下图所示。

在这里插入图片描述

图21：基于生成模型的人机协作示意图

数据高效的多智体学习：构建生成世界模型对MAS的动态协作进行建模。由于基于模型的方法具有很高的样本效率，将世界模型应用于多智体协作学习一直是一个重要的研究课题。通过使用VAE和Transformer等生成模型进行局部观察融合、全局和局部建模的解耦以及自回归轨迹预测，可以使用世界模型对MAS的动态协作进行建模，如下图所示。

在这里插入图片描述