从离线多任务数据中学习可泛化的多智能体合作技能以实现多智能体合作

本文链接：https://blog.csdn.net/u013524655/article/details/146638374

从离线多任务数据中学习能够泛化到具有不同数量智能体和目标的未见任务的合作多智能体策略是一个在许多场景下都极具吸引力的问题。尽管通过聚合多个任务中的通用行为模式作为技能来改进策略迁移是一种有前途的方法，但两个主要挑战阻碍了离线多任务MARL（多智能体强化学习）中技能学习的进一步发展。首先，从各种动作序列中提取通用合作行为作为通用技能缺乏将合作时间知识引入其中。其次，现有工作仅涉及通用技能，而无法在每个任务中自适应选择独立知识作为任务特定技能以实现精细的动作执行。为了解决这些问题，我们提出了 Hi erarchical and S eparate S kill D iscovery (HiSSD)，一种通过技能学习实现可泛化离线多任务MARL的新方法。HiSSD利用分层框架联合学习通用技能和任务特定技能。通用技能学习合作时间知识并实现离线多任务MARL中的样本内探索。任务特定技能表示每个任务的先验知识并实现任务导向的精细动作执行。为了验证我们的方法，我们在多智能体MuJoCo和SMAC基准上进行了实验。使用HiSSD在离线多任务数据上训练策略后，实证结果表明HiSSD分配了有效的合作行为并在未见任务中取得了优越性能。源代码可在 https://github.com/mooricAnna/HiSSD 获取。

1 引言

合作多智能体强化学习（MARL）在许多吸引人的问题中引起了广泛关注，例如游戏、智能仓库、自动驾驶和社会科学 (Vinyals 等 2019；Yun 等 2022；Gronauer 和 Diepold 2022；Tian 等 2025；Shentu 等 2025；X. Wu 等 2025) 。在处理大规模任务时，MARL 方法相比传统控制技术表现出更优的性能。然而，在大多数实际应用中，构建高保真模拟器或部署在线交互可能是昂贵的甚至是不可行的。同时，多智能体系统需要在具有不同数量智能体和目标的任务之间灵活表现。为了解决这些问题，研究能够在有限经验下跨不同智能体数量的任务进行迁移的多智能体策略已经成为一个吸引人的方向，以应对现实世界中的多智能体应用 (Y. Wu, Tucker, 和 Nachum 2019；Kumar 等，n.d.) 。

尽管在单一任务上训练多智能体策略并通过微调应用于目标任务是一种简单的策略迁移方法，但它存在以下缺点 (Wen 等 2022；Hu 等 2021；Yaodong Yang 等 2022；Long 等 2020) : () 微调阶段仍然需要昂贵的交互。() 它缺乏处理具有不同数量智能体和目标的任务的能力。为克服这些问题，现有工作利用 Transformer (Vaswani 等 2017) 来实现灵活的人口不变框架 (Long 等 2020；W. Wang 等 2020) 。它们还从离线多任务数据中发现通用合作行为模式作为通用技能以改进多智能体策略迁移。ODIS (F. Zhang 等 2023) 采用两阶段离线多任务 MARL 方法来发现可泛化的多智能体通用技能。他们首先从全局视角预训练通用技能，然后通过在多任务数据上发现价值最大化的技能来优化策略。HyGen (M. Zhang 等 2024) 结合在线和离线学习以确保多任务泛化和训练效率。这些方法通过学习可泛化的通用技能获得了令人信服的改进，并减少了策略迁移过程中的交互成本。

然而，现有工作仅通过聚合多任务数据中的合作动作来学习通用和可重用的合作行为。将离线多任务 MARL 配备技能学习以改进策略迁移仍然是一个问题。首先，从各种合作动作中提取通用合作行为作为通用技能缺乏将合作时间知识引入其中。现有研究表明，学习时间知识在多智能体合作中具有重要意义 (Z. Xu 等 2022；Song 等 2023) 。其次，现有文献中的工作主要集中于发现与任务无关的通用知识，但很少考虑学习任务特定知识，而这对离线多任务 MARL 中的策略迁移也是有益的 (Yucheng Yang 等 2024；H. Xu 等 2022；Bose, Du, 和 Fazel 2024；Ishfaq 等 2024) 。

鉴于这些问题，我们提出了一种新的方法 Hi erarchical and S eparate S kill D iscovery (HiSSD)，用于通过技能学习实现可泛化的离线多任务 MARL。HiSSD 利用分层框架联合学习通用技能和任务特定技能。具体来说，通用技能表示包含合作时间知识的通用合作模式，并启用离线多任务 MARL 的样本内动态探索。任务特定技能代表每个任务的先验知识并实现任务引导的精细动作执行。因此，HiSSD 有效地将离线多智能体策略改进与通用和任务特定技能学习相结合。

总体而言，我们的贡献可以总结为以下几点：() 我们提出了 HiSSD，一种利用分层框架联合学习通用技能和任务特定技能的离线多任务 MARL 方法。() HiSSD 被设计为学习多个任务之间的合作行为以实现离线多智能体策略探索和行动指导。() 同时，HiSSD 自适应地抽象出每个任务的任务特定技能以实现任务引导的精细模仿。() 我们在 SMAC 和多智能体 MuJoCo 基准上进行了实验。使用 HiSSD 在离线多任务数据上训练策略后，实证结果表明 HiSSD 分配了有效的合作行为并在未见任务中取得了优越性能。由于篇幅限制，我们将伪代码放在附录 Algorithm [alg1] 中。

2 基础知识

2.1 合作多智能体强化学习

2.2 从离线多任务数据中学习可泛化的策略

3 方法

在本节中，我们介绍分层且分离的技能发现（HiSSD）框架，这是一种解决离线多任务多智能体强化学习问题的新方法。我们的主要解决方案是利用分层技能学习框架并联合学习多个合作任务中的通用技能和任务特定技能。我们首先说明离线多任务MARL的整体框架。然后详细描述带有通用技能的高层规划器和带有任务特定技能的低层控制器。最后，我们描述整体目标和训练流程。

3.1 带有合作技能学习的离线多任务MARL

技能是一系列潜在变量，表示任务间的通用和可重复使用的知识以指导动作执行 (F. Zhang 等 2023；M. Zhang 等 2024) 。除了现有工作中提出的解决方案外，我们对多任务技能学习提供了两点见解以进一步改进策略迁移。首先，将合作时间知识集成到通用技能中有助于决策制定。它提供了动态转换信息和全局视角给多智能体策略。其次，学习任务特定技能以指导动作执行有助于自适应地迁移策略。这将每个任务的独特知识带入控制器并调整输出动作分布。通过这种方式，我们提出了一种联合学习通用技能和任务特定技能以改进策略迁移的离线多任务MARL方法。图 [figure:framework] 提供了所提框架的简要说明。

3.2 使用通用技能学习高层规划器

在本小节中，我们介绍了一个用于从离线多任务MARL数据集中提取可迁移技能表示的高层规划框架。我们从MARL的概率推理开始，并构建一个训练目标以将合作时间知识集成到通用技能中。

3.3 使用任务特定技能学习低层控制器

4 实验

4.1 基准和数据集

4.1.0.1 SMAC

星际争霸多智能体挑战（SMAC） (Samvelyan 等 2019) 是一个流行的 MARL 基准测试平台，可以评估多任务学习或策略迁移方法。我们遵循 (F. Zhang 等 2023) 的实验设置，并使用他们收集的离线数据集。类似于 D4RL 基准 (Fu 等 2020) ，四个数据质量被标记为 Expert 、 Medium 、 Medium-Expert 和 Medium-Replay 。我们构建了 Marine-Easy 和 Marine-Hard 任务集。在每个任务集中，不同任务中的单位具有相同的类型和不同的数量。所有算法都在来自多个源任务的离线数据上训练，并在没有额外数据的情况下在广泛的目标任务上进行评估。详情参见附录 11 。

4.1.0.2 MAMuJoCo

多智能体 MuJoCo（MAMuJoCo）是一个连续多智能体机器人控制的基准，基于 MuJoCo 环境。为了满足离线多任务学习的要求，我们遵循 (X. Wang 等 2023) 并在 HalfCheetah-v2 中收集多任务数据集，使用 HAPPO 算法 (Kuba 等 2022) 。我们将机器人分成六个智能体，并通过禁用每个智能体来构建个体任务。每个任务的名称对应于被禁用智能体控制的关节。算法在多个源任务上训练，并在没有额外数据的情况下在未见任务上进行评估。数据集的详细信息在附录 11 中给出。

4.2 基线

4.2.0.1 SMAC

为了评估使用 HiSSD 进行政策迁移的能力，我们介绍了几个可比较的基线：() ODIS (F. Zhang 等 2023) ，一种有效的离线多任务 MARL 方法用于合作技能发现。() UPDeT-m，通过采用基于 Transformer 的 Q 混合网络的离线变体 UPDeT (Hu 等 2021) 。() 基于 Transformer 的行为克隆方法 ( BC-t ) 及其带有返回到目标信息的变体 ( BC-r strong>)。我们对 HiSSD 的性能进行了五次随机种子的平均，并报告了每个任务的最佳分数。

4.2.0.2 MAMuJoCo

对于连续机器人控制任务，我们将 HiSSD 与四种最近的离线 MARL 算法进行比较：() 行为克隆方法 ( BC )，多智能体版本的 () IQL (Kostrikov, Nair, 和 Levine 2021) ，() TD3-BC (Fujimoto 和 Gu 2021) ，以及 () ODIS (F. Zhang 等 2023) ，由我们自己复现。所有算法都在 32 次独立运行中进行评估，并在训练期间使用 4 种不同的随机种子以确保可重复性。值得注意的是，所有算法使用相同的架构，MAMuJoCo 中算法的实现细节和超参数在附录 12 中给出。

4.3 主要结果

4.3.0.1 SMAC

我们在 SMAC 上评估 HiSSD 和基线，并在表 [tab:mainresults] 中展示了 Marine-Hard 任务集中的平均测试胜率。BC-best 表示 BC-t 和 BC-r 之间的最高测试胜率。以下是关键结果：() HiSSD 在超过一半的任务中取得了最佳表现。这表明使用技能来指导动作执行有助于策略迁移。() 与仅从离线多任务数据中发现通用技能的 ODIS 相比，我们的方法在中等和接近最优的数据质量上表现更好，显示出学习任务特定技能的进步。由于篇幅限制，我们在附录 13 中给出了其他任务集的结果。

4.3.0.2 MAMuJoCo

表 [tab:mamujoco_results] 显示了我们在 HalfCheetah-v2 任务集上的离线多任务学习的平均回报的均值和标准差。结果显示，HiSSD 超越了所有基线并在大多数任务中达到了最先进的性能。与仅使用行为克隆（BC）的基线相比，HiSSD 在广泛的范围内表现出色。我们还发现，当迁移到未见任务时，HiSSD 在超越 ODIS 和 TD3-BC。这表明学习合作时间知识和任务特定技能有助于从离线多任务数据中学习可泛化的多智能体策略。

4.4 敏感性分析

在本节中，我们提供了 HiSSD 的额外实证分析。首先，我们展示了所提出的技能学习方法在 HiSSD 中联合编码合作时间模式和任务特定知识的有效性。接着，我们识别了任务特定技能获取中的关键因素。最后，我们展

示了技能可视化以获得更深入的见解。

4.4.0.1 通用技能分析

我们在 SMAC 的 Marine-Hard 任务集上进行实验，以展示 HiSSD 中所提出的技能学习范式的效果，并在表 [tab:model-ablation1] 中呈现结果。我们实现了 HiSSD 的两个变体，以分别展示三个因素对 HiSSD 技能学习的影响：() 无规划 。HiSSD 仅在任务间学习任务特定技能。() 无预测 。HiSSD 训练规划器时没有下一全局状态预测。结果显示，学习通用技能可以提高策略迁移能力，而学习预测下一全局状态则进一步提升了效果。

4.4.0.2 任务特定技能分析

为了研究学习任务特定技能的本质因素，我们在 SMAC 的 Marine-Hard 任务集上使用 HiSSD 的三个变体进行实验：() 半负样本 。我们在对比学习期间减少了一半的负样本。() L2 损失 。目标被替换为类似于 (Grill 等 2020) 的方法，该方法不需要负样本。根据 [tab:model-ablation1] 中的结果，学习区分任务间的差异在学习任务特定技能中起着关键作用。同时，增加负样本数量进一步提高了多智能体策略迁移的能力。

4.5 已学习技能的可视化

为了更清楚地评估我们提出的方法的有效性，我们在 SMAC 上的多个任务中评估 HiSSD，并使用 t-SNE (Hinton 和 Roweis 2002) 对已学习技能进行可视化。

4.5.0.1 通用技能

在图 [figure:common_skills] 中，我们可视化了多个任务中选择的通用技能。同一分布中的邻近点代表相似的通用技能。为了展示技能流，我们将收集到的轨迹按时间步分为四个子部分。图表显示，通用技能被映射到多个簇中，每个簇包含来自不同任务的技能。每种分布中具有相同颜色的点表示相应任务中智能体之间的协作。结果表明，HiSSD 获得了学习与任务无关的通用技能的能力。

4.5.0.2 任务特定技能

图 [figure:task_specific_skills] 表示在评估过程中选择的任务特定技能。我们在 SMAC 的多个任务中使用 HiSSD 收集轨迹，并按时间步将这些轨迹分为四个子部分。从图表来看，小规模任务（即 3m 、 4m 和 5m ）中选择的技能被映射到不同的分布中。然而，大规模任务（即 10m 和 12m ）中选择的技能相互重叠。结果表明，HiSSD 高效地泛化到类似源域的小规模任务，有效地学习任务差异。然而，对于大规模任务（10m, 12m），它难以捕捉显著的分布变化，导致重叠。值得注意的是，我们的方法随着时间推移自适应地减少了分布距离，展示了跨任务的动态转移学习。随着情节的进展，由于智能体的减少，多智能体任务自然分解为更简单的子任务。这证明了 HiSSD 的能力：() 有效地编码任务特定知识，以及 () 通过学习策略自适应地区分任务。

5 相关工作

5.1 离线 MARL

从离线经验中训练策略而不进行交互有效降低了在现实场景中实现强化学习的试错成本 (Levine 等 2020；K. Zhang 等 2021) 。由于离线学习中的分布偏移 (Fujimoto, Meger, 和 Precup 2019) ，从静态数据集中训练策略在估计未见数据时会面临意外的外推误差 (Y. Wu, Tucker, 和 Nachum 2019；Kumar 等，n.d.) 。因此，以前的工作考虑学习行为约束策略 (Kumar 等 2020；Kostrikov, Nair, 和 Levine 2021) ，这可以扩展到 MARL 范式。它们旨在对当前在线 MARL 方法采用足够的保守主义 (Yiqin Yang 等 2021；Jiang 和 Lu 2021；Pan 等 2022) ，通过值函数分解 (Sunehag 等 2018；Rashid 等 2020；Yaodong Yang 等 2020；J. Wang 等 2021) 或多智能体策略梯度算法 (Lowe 等 2017；Foerster 等 2018；Iqbal 和 Sha 2019；Yu 等 2022； Kuba 等 2022) 来训练策略。另一种有效的离线学习方法是利用强大的基于 Transformer 的模型 (L. Chen 等 2021；Lee 等 2022； Meng 等 2023；J. Liu 等 2023) 或扩散模型 (Janner 等 2022； Pearce 等 2023；H. He 等 2023) 。然而，结合生成模型与强化学习的策略改进范式仍然是一个问题 (Zheng, Zhang, 和 Grover 2022；Z. Wang, Hunt, 和 Zhou 2023；Kang 等 2023) 。

5.2 多任务 MARL

多任务学习在 MARL 中起到了关键作用，可以改善数据效率和泛化能力。它强调知识重用 (Da Silva 和 Costa 2016；Shen 等 2021；Sodhani, Zhang, 和 Pineau 2021) ，这对可迁移的多智能体协作是有益的。这种范式要求策略具有灵活的结构，以便在输入维度不同的任务中部署智能体 (Agarwal 等 2020；W. Wang 等 2020；Hu 等 2021；Zhou 等 2021) 。近期的研究考虑了多种方式来实现多任务适应，例如策略表示学习 (Grover 等 2018) 、基于进化课程的学习 (Long 等 2020) 、随机实体分解 (Iqbal 等 2021) 、高层合作策略重用 (B. Liu 等 2021) 和训练基于 Transformer 的人口不变策略 (Hu 等 2021；Wen 等 2022；J. Liu 等 2023) 。尽管这些方法减轻了从头开始学习的需求，但不通过同时学习或微调就泛化策略仍然具有挑战性 (F. Zhang 等 2023) 。

5.3 带有技能学习的 MARL

层次化的 MARL 与技能学习相结合是一种实用的方法，用于解决复杂的决策问题。这一范式将行为模式嵌入到技能空间中，通过信息理论的状态赋能促进多智能体的合作探索 (Barto 和 Mahadevan 2003；Eysenbach 等 2019；M. Yang 等 2023；S. He, Shao, 和 Ji 2020；Y. Liu 等 2022) 。MASD (S. He, Shao, 和 Ji 2020) 引入了一个信息瓶颈来发现合作模式。HSD (J. Yang, Borovikov, 和 Zha 2020) 和 HSL (Y. Liu 等 2022) 利用层次化架构来发现多样化的行为。HMASD (M. Yang 等 2023) 将技能辨别视为一个序列建模问题。然而，他们的框架在执行过程中需要全局信息。VO-MASD (J. Chen 等 2024) 在预训练阶段发现类似层次结构的合作技能，以加速在线学习。ODIS (F. Zhang 等 2023) 结合离线多任务学习与层次化的 MARL 来学习可泛化的多智能体策略。虽然他们通过价值函数分解发现技能，但他们只考虑任务间的通用技能。HyGen (M. Zhang 等 2024) 继承 ODIS 并整合在线探索以进一步提升迁移能力，特别是在中等数据质量下。在本文中，我们提出了一种层次化策略，该策略从离线多任务数据中联合学习通用技能和任务特定技能，进一步增强了多智能体策略的泛化能力。

6 结论

在本文中，我们提出了一个新的层次化多智能体策略，该策略从离线多任务数据中联合学习通用技能和任务特定技能，从而进一步提升了离线多任务 MARL 中的策略迁移能力。我们分析了当前离线多任务 MARL 方法的主要问题，并提出了新的目标来克服这些问题。我们在流行的 MARL 基准上比较了 HiSSD 与 SOTA 方法，并证实其获得了显著的改进。HiSSD 的一个局限性是其训练稳定性，我们将其作为未来工作的方向。希望我们提出的技能学习管道能够为离线多任务学习在 MARL 中开辟一个新的分支。

7 可重复性声明

源代码可在 https://github.com/mooricAnna/HiSSD 获取。完整的理论推导和定理在附录 9 中给出。伪代码在附录 10 中给出。我们在附录 11 中详细描述了使用的基准和数据集，并在附录 12 中给出了实现细节。

8 致谢

本工作得到了中国国家自然科学基金（62406112，62372179）的支持。

9 附加推导

9.1 高层规划器的目标

9.2 低层控制器的目标

9.3 桥接 KL 散度和对比学习

在本节中，我们说明如何桥接对比损失以近似 Eq. [eq:vae] 中的 KL 散度。我们首先介绍一个引理，然后给出定理 [thm:kl_to_contrastive] 的证明。

10 HiSSD 的伪代码

# 从离线数据集中采样一个任务数据。

11 基准和数据集

11.1 SMAC

星际争霸多智能体挑战（SMAC） (Samvelyan 等 2019) 是一个广泛使用的合作多智能体测试平台，包含多样化的星际争霸微观管理场景。在本文中，我们利用了由 (F. Zhang 等 2023) 定义的三个不同的 SMAC 任务集： Marine-Hard 、 Marine-Easy 和 Stalker-Zealot ，以评估策略迁移到未见任务的能力。 Marine-Hard 和 Marine-Easy 任务集包括各种海军陆战队战斗场景，训练的多智能体策略需要控制一组盟军海军陆战队来对抗等量或更强大的内置 AI 敌方海军陆战队。 Stalker-Zealot 任务集包括每侧对称的追猎者和狂热者的多个任务。为了在有限的资源下实现对未见任务的泛化，我们在三个选定的任务上进行训练，并保留其余任务用于评估。这些任务集的详细属性列举在表 [tab:marine-easy] 、 [tab:marine-hard] 和 [tab:stalker-zealot] 中。

正如实验部分所述，我们使用与 (F. Zhang 等 2023) 相同的离线多任务数据集以保持公平比较。这四种质量的定义如下：

中级数据集包含测试胜率为专家 QMIX 策略一半的 QMIX 策略（即中级策略）的轨迹数据。
中级-专家级 数据集混合了专家和中级数据集的数据以获得更加多样化的数据集。
中级-回放 数据集是中级策略的回放缓冲区，包含较低质量的轨迹数据。

不同质量的离线数据集的属性在表 [tab:smac_dataset] 中详细列出。

11.2 MAMuJoCo

12.1 SMAC 中 HiSSD 的细节

通过通用技能编码器提取的通用技能被输入前向预测器以进行全局状态预测，并输入动作解码器以执行操作。我们的框架采用双变压器架构进行全局状态预测：第一个变压器整合敌方信息，而第二个处理器则处理己方和预处理过的敌方信息以预测后续的全局状态。对于动作执行，我们将动作解码器输出的分解信息与任务特定技能连接起来，并将其输入 MLP 以获取真实动作。图 [figure:framework-app] 展示了 SMAC 中 HiSSD 的整体框架。SMAC 使用的超参数列在表 [tab:smac_hyperparameters] 中。

12.2 MAMuJoCo 中 HiSSD 的细节

观察形状在不同任务中是一致的，因此我们在 MAMuJoCo 中未应用 SMAC 所使用的观察分解。通用技能编码器、任务特定技能编码器、个体价值网络和动作解码器使用单层变压器（64 单元隐藏层）来处理观察数据。通过通用技能编码器提取的通用技能被输入前向预测器以进行全局状态预测，并输入动作解码器以执行操作。我们将动作解码器输出的分解信息与任务特定技能连接起来，并将它们输入 MLP 以获取真实动作。MAMuJoCo 使用的超参数列在表 [tab:mamujoco_hyperparameters] 中。

12.3 训练成本

HiSSD 的训练过程使用 NVIDIA GeForce RTX 3090 GPU 和 32 核 CPU 通常需要 12-14 小时。我们发布的 HiSSD 实现遵循 Apache License 2.0，与 PyMARL 框架相同。

13 附加结果

13.1 SMAC 中其他任务集的结果.

我们遵循 ODIS 的多任务学习设置 (F. Zhang 等 2023) 并在两个离线多任务任务集中进行了额外实验： Marine-Easy 和 Stalker-Zealot 。结果展示在表 [tab:mainresults2] 和 [tab:mainresults3] 中。我们也展示了 Stalker-Zealot 任务集上的平均胜率，在表 [app:stalker_mean] 中，以清楚地显示 HiSSD 在包含异构单元的任务上的改进。对于 Marine-Easy 任务集，HiSSD 在大多数源任务和未见任务上相比其他基线获得了令人信服的性能。对于 Stalker-Zealot 任务集，HiSSD 获得了有竞争力的性能，并且在数据集由接近最优策略生成的情况下超越了 ODIS（即 Expert 和 Medium-Expert ）。此外，基于技能学习的方法未能在某些 Stalker-Zealot 任务集中超越基于 BC 的方法。我们怀疑这是由于 Marine 和 Stalker-Zealot 任务集之间的任务属性差异所致，因为 Marine 中的受控项是同质的，而 Stalker-Zealot 中的受控项是异质的。因此，在有限的数据集中学习可泛化的合作模式对策略来说更具挑战性。

13.2 超参数敏感性分析.

13.3 与 HyGen 的比较

HyGen (M. Zhang 等 2024) 是一项最近的工作，专注于结合离线预训练和在线探索以加速多任务 MARL 的策略迁移。HyGen 首先通过使用全局信息的动作解码器进行技能空间的预训练，然后实施在线探索以使用离线和在线数据构建混合回放缓冲区，同时改进高层策略并优化动作解码器。与 HyGen 相比，我们的方法不需要在线探索和预训练步骤。HyGen 仅执行通用技能学习，而我们的方法利用任务特定技能来补充通用技能发现。我们在 SMAC 的 Marine Hard 任务集中将我们的方法与 HyGen 进行了比较，并在表 [app:compare_hygen] 中提出了实证结果。尽管在专家级数据质量条件下 HiSSD 在大多数任务中表现出优于 HyGen 的性能，但 HyGen 利用在线探索实现了策略改进，特别是在提供中等质量的离线数据集时。