行为正则化与顺序策略优化结合的离线多智能体学习算法

美团技术团队

已于 2025-02-21 09:55:18 修改

阅读量968

点赞数 14

文章标签：学习算法

于 2025-02-20 19:59:19 首次发布

本文链接：https://blog.csdn.net/MeituanTech/article/details/145767690

版权

离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享给大家。

合作型马尔可夫博弈
- 定义与基本概念
- IGM原则与值分解
- 离线MARL中的行为正则化马尔可夫博弈
样本内顺序策略优化
- 样本内顺序策略优化的数学推导
- 最大熵行为正则化马尔可夫博弈
算法细节
- 策略评估
- 策略改进
- 实际应用及实现细节
实验验证
- 桥博弈的实验结果
- 星际争霸II微操作基准测试的实验结果
- 消融研究
总结

离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。相比于单智能体情况，多智能体环境涉及到大规模的联合状态——动作空间和多智能体间的耦合行为，这给离线策略优化带来了额外的复杂性。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作、智能调度决策等方面展现了巨大的应用潜力。但是离线MARL较单智能体情况下更加复杂，其涉及庞大的联合状态-动作空间和多智能体间的复杂互动行为，这使得离线策略优化成为一项艰巨的任务。

离线MARL面临的主要挑战包括：一是如何有效应对分布偏移问题，即在策略评估过程中，分布外（OOD）样本可能导致误差积累；二是在多智能体环境下，协调多个智能体的行为显得尤为困难。现有的离线MARL方法尽管取得了一些进展，但仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，联合提出了一种新颖的离线MARL算法——样本内顺序策略优化（In-Sample Sequential Policy Optimization, InSPO），该方法通过顺序更新每个智能体的策略，避免选择OOD联合动作，同时增强了智能体之间的协调性。

2024年12月11 日，中山大学计算机学院的刘宗凯、林谦、余超和伍夏威等学术界的专家和教授，跟美团技术团队联合发表了一篇技术论文《Offline Multi-Agent Reinforcement Learning via In-Sample Sequential Policy Optimization》（论文下载）。研究团队的主要贡献在于提出了InSPO算法，该算法不仅避免了OOD联合动作，还通过探索行为策略中的低概率动作，解决了提前收敛到次优解的问题。理论上InSPO保证了策略的单调改进，并收敛到量化响应均衡（QRE）。实验结果表明，InSPO在多个离线MARL任务中表现出了显著的效果，与当前最先进的方法相比具有明显的优势。