TAG:多智能体分层强化学习的去中心化框架

原论文:https://arxiv.org/pdf2502.15425

1 引言

在四代理 MPE-Spread 环境中使用的三层次和两层次的层次化代理。黄色方框代表层次级别,而蓝色连接表示每个代理感知为环境的部分。红色连接说明了真实环境中代理的控制方式,绿色方框代表代理需要达到的目标。

从单细胞管理基本稳态到组织形态发生再到大脑监督复杂行为,每个层次都建立并整合其组成部分的智能以实现越来越复杂认知能力。然而,在人工系统中实现类似的层次化结构存在几个关键挑战:(1) 在没有集中控制的情况下协调信息流,(2) 尽管多级代理同时适应导致非平稳性,仍能高效学习,以及 (3) 随着层次深度增加保持可扩展性。

当前的人工智能系统主要依赖于单一架构,限制了它们应对这些挑战的适应性和可扩展性。这在大型语言模型(LLMs)和传统强化学习(RL)方法中尤为明显,其中代理通常被定义为端到端可训练的实例。这种整体设计存在几个局限性:当条件变化时需要重新训练,缺乏层次系统的自然组合性,并且随着任务复杂性的增加表现不佳。传统的基于集中训练与分散执行或多级经理/工人结构的多代理方法由于状态维度高,仅适用于少量代理。同时,独立学习者与通信协议策略虽然较少受到此影响,但可能会面临通信开销的问题。

我们的关键见解是生物系统通过灵活、多层次的层次化组织解决了类似的协调挑战。我们提出未来智能系统应该更像代理的社会而非单一实体。我们的长期目标是构建类似于分层动态网络子代理的代理,而不是静态结构。在这项工作中,我们朝着这个方向迈出第一步,引入了TAME代理框架(TAG),该框架借鉴了TAME的生物学见解 (Levin 2022) ,创建了一个支持任意深度代理层次的多代理RL框架。核心创新在于LevelEnv抽象,它促进了多级多代理系统的构建。通过这一抽象,层次中的每个代理与其下一级别互动,如同其环境一样——通过状态表示观察它,通过动作影响它,并根据较低级别的表现获得奖励。结果系统由多个水平层次组成,如图 1 所示,每个包含一个或多个子代理,松散连接到其上级代理和下级组件。这种结构通过在层次内本地连接代理减少了通信开销和状态空间大小。

TAG引入了几项关键创新:

  1. LevelEnv 抽象标准化了层次之间的信息流,同时保留了代理的自主性,通过将每一层呈现为其上一层的环境;
  2. 灵活的通信协议无需集中控制即可实现协调;
  3. 支持跨层次的异构代理,允许在最适当的地方部署不同的学习算法。
    这种方法通过自然分解任务提高了学习效率,同时通过松耦合维持了可扩展性。我们在标准多代理强化学习(MARL)基准测试中验证了 TAG 的有效性,实例化了多个二层和三层的层次结构。实验表明,与扁平和浅层次的多代理基线相比,样本效率和最终性能有所提高。
    在接下来的章节中,我们首先回顾 MARL(第 [sec:marl] 节)和 HRL(第 [sec:hrl] 节)的相关工作。然后在第 [sec:framework] 节中介绍 TAG 框架,包括我们关键的 LevelEnv 抽象。第 [sec:experiments] 节提供了多个代理实例的标准基准测试的实证验证。最后在第 [sec:discussion] 节和第 [sec:conclusion] 节讨论影响和未来方向。
    2 相关工作
    2.1 多代理强化学习
    近年来,多代理系统研究引起了广泛关注 (Nguyen, Nguyen, and Nahavandi 2020; Oroojlooy and Hajinezhad 2023) . Leibo 等人 (2019) 提出,智能系统的创新是通过社交互动产生的,即自动生成课程——由竞争和合作产生的自然序列挑战,驱动持续的创新和学习。作者认为,推进智能系统的发展需要重点关注多代理研究。
    为了支持这一领域的发展,出现了几种基准测试 (Samvelyan 等 2019; J. Hu 等 2021; Bettini, Prorok, 和 Moens 2024; Terry 等 2021) . Terry 等 (2021) 引入了 PettingZoo,提供了一个标准化的 OpenAI Gym 类似接口 (Brockman 2016) 用于多代理环境,而 Bettini, Prorok, 和 Moens (2024) 引入了 BenchMARL,通过提供全面的基准工具和标准化基线来解决碎片化和可重复性挑战。
    MARL 方法可以根据其协调策略大致分为三类:
  4. 独立学习者 不进行代理间通信,每个代理维护自己的学习算法,并将其他代理视为环境的一部分。常见示例包括 IPPO (De Witt 等 2020) , IQL (Thorpe 1997) , 和 ISAC (Bettini, Prorok, 和 Moens 2024) , 它们分别是其单代理对应物 PPO (Schulman 等 2017) , Q-Learning (Watkins 和 Dayan 1992) , 和 SAC (Haarnoja 等 2018) 的独立改编;
  5. 参数共享 方法让代理共享组件,如评论家或价值函数,如 MAPPO (Yu 等 2022) , MASAC (Bettini, Prorok, 和 Moens 2024) , 和 MADDPG (Lowe 等 2017) ;
  6. 通信代理 主动交换信息,或者通过共识方法 (Cassano, Yuan, 和 Sayed 2020; Zhang 等 2018) 其中代理必须在网络中达成一致,或者通过学习的通信协议 (Foerster 等 2016; Jorge 等 2016) .

对于综合分类和综述,我们建议读者参阅 Oroojlooy 和 Hajinezhad (2023) .

MARL 中的一个重要挑战是从每个代理的角度来看,环境是非平稳的。随着其他代理学习和改变其行为,状态转移动力学也会发生变化。这影响了经验回放机制,因为存储的经验很快就会过时 (Foerster 等 2016) . 主导范式是 集中学习 与 分散执行 (Oroojlooy 和 Hajinezhad 2023) ,试图通过共享学习组件来解决这些挑战。然而,这种方法在训练期间对架构施加了约束,并限制了其在终身学习场景中的适用性。

2.2 层次强化学习

层次化组织是自然界中智能行为的基础。人类婴儿自然地将复杂任务分解为层次化的目标结构 (Spelke 和 Kinzler 2007) , 使时间抽象和行为抽象成为可能。这种层次化的方法有两个关键优势:通过基于抽象的价值传播改进信用分配,并通过时间和状态抽象实现更有意义的探索 (Hutsebaut-Buysse, Mets, 和 Latré 2022) . Nachum 等 (2019) 表明,这种增强的探索能力是层次化 RL 超越扁平 RL 方法的主要优势之一。

HRL 的基础方法侧重于两级架构。Options 框架通过半马尔可夫决策过程 (SMDPs) 形式化时间抽象,其中长时间行动(“选项”)由政策、终止条件和启动集组成 (Sutton, Precup, 和 Singh 1999) . 该框架支持并发选项执行并允许选项中断,提供了超越简单层次结构的灵活性。尽管选项最初是预定义的 (Sutton, Precup, 和 Singh 1999) , 后续工作实现了在固定高层策略下学习选项 (Silver 和 Ciosek 2012; Mann 和 Mannor 2014) 或通过端到端训练,如 Option-Critic (Bacon, Harb, 和 Precup 2017) .

另一种方法是 Feudal RL (Dayan 和 Hinton 1992; Kumar, Swersky, 和 Hinton 2017; Vezhnevets 等 2017) , 实现了一种经理-工人架构,其中经理向低级工人提供内在目标。这创造了双向信息隐藏——经理不需要表示低级细节,而工人只需专注于其直接的内在奖励,而无需访问高层目标。这些方法面临的共同挑战是:学习过程中低级的非平稳性使高级的价值估计复杂化。

基于模型的方法试图解决这一问题—— Xu 和 Fekri (2021) 学习符号模型以进行高层规划,而 Li, Narayan, 和 Leong (2017) 基于 MAXQ 的值函数分解,通过将全局 MDP 分解为特定任务的本地 MDP。然而,这些通常需要手动指定的状态抽象或任务分解。最近的工作集中在学习稳定性上, Luo 等 (2023) 引入基于注意力的奖励塑造以指导探索,而 W. Hu 等 (2023) 开发了不确定性感知技术以处理层级间的分布变化。

多代理设置引入了额外的复杂性,因为层次化协调现在必须处理时间和代理间的依赖关系。 Tang 等 (2018) 通过专用重放缓冲区处理由此产生的非平稳性来解决这个问题。与此同时, Zheng 和 Yu (2024) 引入了分层奖励机,但需要大量的领域知识。HRL 和 MARL 的结合工作稀缺,突显了在多种非平稳性来源下的稳定学习挑战。

我们的方法, name , 与传统层次化框架不同,直接学习塑造低级观测空间,而不是像 Feudal RL 明确分配目标。这直接启发自 Levin (2022) 的工作,该工作提出在生物系统中,局部环境变化驱动协调响应而无需中央控制。最接近我们工作的方法是 FMH (Ahilan 和 Dayan 2019) , 但在此工作中,代理限于浅层两深度层次,并且只有自上而下的目标信息流。相比之下, name 支持任意深度层次,无需明确的任务规范,跨层次的通信依赖于自底向上的消息和自顶向下的动作修改代理的观测,而不是提供目标。因此, name 为多代理协调提供了灵活的解决方案。

3 TAG 框架

name 框架针对多个代理协作以在一个马尔可夫决策过程(MDP)中最大化个体奖励的情况,我们称之为 真实环境 。受 TAME (Levin 2022) 描述的生物系统的启发, name 实现了一个层次化的多代理架构,其中高层代理协调低层代理,每个代理具有与其目标复杂性相匹配的不同认知复杂性。如图 1 所示,其核心是将代理组织成层次结构,其中每一层仅与其直接下层交互。虽然最低层的代理直接在真实环境 MDP 中操作,较高层的代理则通过 LevelEnv 构造感知和交互于系统越来越抽象的表示。这种结构促进了横向(同层)和纵向(跨层)的协调,使高层能够保持战略监督而不需详细了解低层行为,同时通过修改低层观测的动作影响低层。

框架的关键创新是 LevelEnv 抽象,它将每个层次转换为对其上方代理的环境。这一抽象将原始 MDP 转换为一系列耦合决策过程,每个层次在其自身的时间和空间尺度上运行。在这个结构中,代理优化其个体奖励,同时通过层次安排为整个系统性能做出贡献。

name 启用了双向信息流:反馈通过代理通信逐层向上流动,而控制通过修改低层观测的动作向下流动。这种设计在各层之间保持模块化的同时促进了协调,并集成了与各自层次复杂性要求相匹配的异构代理。

3.1 框架形式定义

3.2 信息流与代理交互

在 name 中,信息通过相邻层次之间的连续循环流动,由 LevelEnv 抽象促进。这种流动可以通过两条不同的路径表征:自底向上和自顶向下,如图 2 所示。

层次 \(l\) 与上下层之间的信息流表示。自顶向下的动作流用蓝色表示。自底向上的消息和奖励流分别用红色和绿色表示。

3.2.0.1 自底向上流

该框架的优势在于消息如何处理和转换。代理不仅可以简单传递原始观测,还可以学习提取和传达对协调至关重要的相关特征。例如,一个代理可能会学习在需要其他代理帮助或实现有助于更大目标的子目标时发出信号。

3.2.0.2 自顶向下流

3.3 学习与适应

框架的模块化设计允许每个层次的代理使用适合其特定角色的适当算法独立学习。这种灵活性容纳了广泛的从简单 Q-learning 到复杂策略梯度方法的学习方法。在训练过程中,每个代理存储其经验并根据收到的奖励更新其策略,如 Alg. [alg:step] 所示。这种独立学习能力使框架更容易适应不同场景——较低层次可能采用基本的反应策略,而较高层次可以使用高级规划算法。

3.4 > 可扩展性和灵活性

name 的架构通过几种机制在保持计算效率的同时支持任意深度的扩展。首先,层次之间的松耦合允许每个层以自己的时间尺度运行,类似于生物系统将战略规划与反应控制分离。高层可以比低层以更低的频率做出决策,减少计算开销同时保持有效的协调。其次,通过 LevelEnv 抽象实现的标准接口自然处理了具有不同能力和学习算法的异构代理的集成。这种标准化确保了无论单个代理的具体实现如何,都能进行有效的通信和协调。

在实践中,LevelEnv 实现遵循 PettingZoo API (Terry 等 2021) , 提供两个主要接口函数: .reset() 和 .step() 1 . 第一个函数 .reset() 从真实环境初始化系统状态并将其传递给所有层次结构,返回初始观测,启动信息的向上流动。 .step() 函数接受一个动作字典,并返回包含每个代理的观测、奖励、终止条件和附加信息的字典。在调用 .step() 时,会生成下层的动作,调用下层的 .step() , 并更新代理,如 Alg. [alg:step] 所示。

4 实证验证

4.1 多级层次结构实例

为了展示 name 的有效性,我们实现了多个具体的两层和三层层次系统,使用基于 PPO 和 MAPPO 的代理。其结构如图 1 所示。我们关注基于策略的算法,因为缺乏重放缓冲区有助于应对环境中分布的变化 (Foerster 等 2016) .

5 实证验证

5.1 多级层次结构实例

为了展示 name 的有效性,我们实现了多个具体的两层和三层层次系统,使用基于 PPO 和 MAPPO 的代理。其结构如图 1 所示。我们关注基于策略的算法,因为缺乏重放缓冲区有助于应对环境中分布的变化 (Foerster 等 2016) .

如图 1 (a) 所示,三层架构由底层的四个代理组成,每个直接控制环境中的一个演员。这些代理必须学会将高层指令转化为具体动作,同时适应局部条件。中层包含两个代理,每个协调一对底层代理。最后,顶层包含一个代理,学习为整个系统提供战略指导。相比之下,两层层次结构由四个底层代理与真实环境交互,并由一个高层管理器协调。对于这些拓扑结构,我们实例化了一个同质系统,仅包含基于 PPO 的代理,以及一个异质系统,底层为 PPO 代理,上层为 MAPPO 代理。我们将这些代理分别称为 3PPO 和 2MAPPO-PPO (针对三层系统),以及 2PPO 和 MAPPO-PPO (针对两层系统)。

5.2 实验设计与结果

我们在两个标准多代理环境中评估 name -基系统,测试不同方面的协调和可扩展性。第一个是 MPE 套件中的 Simple Spread 环境 (Lowe 等 2017; Mordatch 和 Abbeel 2017) , 其中代理必须最大化覆盖面积同时避免碰撞,测试协调和空间推理能力。第二个是 VMAS 套件中的 Balance 环境 (Bettini 等 2022) , 测试通过协调行动维持集体稳定性的同步控制能力。这两个环境都包含四个代理,限制每个情节为 100 个时间步。

我们将我们的方法与三个基线进行比较:MAPPO (Yu 等 2022) , I-PPO (De Witt 等 2020) , 和经典 PPO (Schulman 等 2017) . 在多代理设置中,我们通过扩展其动作空间以涵盖真实环境中所有代理的组合动作空间来适应 PPO。此外,对于 MPE-Spread 环境,我们开发了一个手动设计的启发式算法,该算法为每个代理分配并指示其沿最短路径到达特定目标。该启发式算法在 10 个情节中的平均性能由图 [fig:rewards] .(a) 中的红色虚线表示。

在 2PPO 中顶层和底层代理之间的动作分布。(a) 底层代理接收来自顶层的动作。(b) 底层代理不接收来自顶层的动作。

关于基线,尽管 MAPPO 和 I-PPO 最终达到了与两层 name -基代理相似的性能水平,但它们需要更长的训练时间。值得注意的是,PPO 在两个环境中难以达到与其他基线类似的性能,突显了整体方法在处理大动作和观测空间时的局限性。

这些结果展示了 name 方法的两个关键优势。首先,层次结构使得相比扁平架构更高效地学习,因为劳动分工使每个代理专注于总体问题的一个可管理子集,从而提高了样本效率。其次,该框架显示了更好的可扩展性;随着代理数量的增加,层次结构帮助维持协调,而不会像扁平架构那样出现指数复杂度增长。

5.3 通信机制分析

在本节中,我们通过分析连接代理之间的动作相关性来研究层次间学习的通信机制。存在这种相关性将表明代理可以有效地利用来自较高层次代理对其观测的修改。我们重点关注 2PPO 和 MAPPO-PPO 在 MPE-Spread 环境中顶层和底层代理之间的动作关系,其中层次结构中的所有代理都有一个 5 维离散动作空间。Figs. [fig:mappo_ppo_act] 和 3 显示了一个低层代理的动作(y 轴)和训练轮次(x 轴)。颜色表示在某一轮次中当低层代理执行某个动作时,高层代理最常选择的动作(模式)。计算方法如下:对于每一轮次,我们:1) 查看每次低层代理执行特定动作的实例,2) 记录每次高层代理选择的动作,3) 确定低层代理执行每个动作时高层代理最常选择的动作(模式)。空白处表示低层代理在该轮次中未选择对应动作。多轮次中一致的模式表明跨两个层次的代理之间存在关联。

6 讨论与未来工作

我们的结果展示了 name 在分层协调方面的好处,同时也强调了几个重要考虑因素。该框架在需要多个代理协调的任务中表现出色,但确定最佳层次配置——特别是层数和每层的代理数量——目前依赖于经验调整,这是一个重要的未来研究领域。另一个关键考虑因素来自于我们对通信函数的定义。虽然大多数基线使用恒等函数进行层间通信,但我们对学习通信函数的实验揭示了性能上的显著改进。这些结果强调了更深入研究代理之间最优通信学习的必要性。有效学习和塑造这种通信可能显著增强层次间的通信质量并潜在地减少协调开销。

一个特别有前景的方向是自动调整层次结构。当前的实现要求预先指定层数和代理之间的连接。扩展 name 以根据任务需求动态调整其结构,可以通过自组织而非外部指定的方式增强其灵活性和效率。这可以从生物系统中获得灵感,在生物系统中,层次化组织通常通过自组织而不是外部指定而形成。 name 在启用可扩展多代理协调方面的成功不仅仅局限于纯强化学习。其松耦合层次和标准化信息流的原则可以为其他复杂系统的设计提供参考,从机器人集群到分布式计算架构。此外,框架处理异构代理的能力表明其在人类-AI 协作中的潜在应用,其中人工代理必须在多个抽象层次上与人类操作员协调。

从这项工作中出现了几个有前途的未来研究方向。首先,研究深层次结构中学习收敛的理论保证可以为设计更稳健的系统提供有价值的见解,特别是在涉及多层层次结构的稳定性方面。其次,使创建自主层次结构和动态组建团队成为可能,将通过允许代理在操作期间加入或离开层次结构来增强实际应用性。此外,在较高层次整合基于模型的规划,同时在较低层次保持反应控制,可以在复杂领域中提高性能。这可能包括在最高层引入基于 LLM 的代理,以增强推理能力和促进与人类操作员的自然互动。研究代理如何在层次结构内有效学习通信也是一个关键方向,因为我们初步结果表明,学习通信函数在提高协调效率和系统性能方面具有巨大潜力。

7 结论

name 代表了迈向更可扩展和灵活的多代理系统的重要一步。通过提供一个原则性的分层协调框架,同时保持代理的自主性,它使复杂的集体行为从相对简单的组件中涌现出来,类似于生物系统。在标准多代理基准测试(包括合作导航和操控任务)中的全面评估表明,其在解决日益复杂的多代理问题方面具有潜力。拥有异构代理和任意深度的层次结构,同时保持稳定的学习,是多代理强化学习中的几个关键挑战。随着我们向越来越复杂的多代理系统迈进,像 name 这样的框架,能够实现原则性的层次化组织,将变得越来越重要。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值