行为正则化与顺序策略优化结合的离线多智能体学习算法

离线多智能体强化学习(MARL)是一个新兴领域,目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展,多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战,仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战,中山大学计算机学院、美团履约平台技术部开展了学术合作项目,并取得了一些的成果,希望分享给大家。

  • 合作型马尔可夫博弈

    • 定义与基本概念

    • IGM原则与值分解

    • 离线MARL中的行为正则化马尔可夫博弈

  • 样本内顺序策略优化

    • 样本内顺序策略优化的数学推导

    • 最大熵行为正则化马尔可夫博弈

  • 算法细节

    • 策略评估

    • 策略改进

    • 实际应用及实现细节

  • 实验验证

    • 桥博弈的实验结果

    • 星际争霸II微操作基准测试的实验结果

    • 消融研究

  • 总结

离线多智能体强化学习(MARL)是一个新兴领域,目标是在从预先收集的数据集中学习最佳的多智能体策略。相比于单智能体情况,多智能体环境涉及到大规模的联合状态——动作空间和多智能体间的耦合行为,这给离线策略优化带来了额外的复杂性。随着人工智能技术的发展,多智能体系统在诸如自动驾驶、智能家居、机器人协作、智能调度决策等方面展现了巨大的应用潜力。但是离线MARL较单智能体情况下更加复杂,其涉及庞大的联合状态-动作空间和多智能体间的复杂互动行为,这使得离线策略优化成为一项艰巨的任务。

离线MARL面临的主要挑战包括:一是如何有效应对分布偏移问题,即在策略评估过程中,分布外(OOD)样本可能导致误差积累;二是在多智能体环境下,协调多个智能体的行为显得尤为困难。现有的离线MARL方法尽管取得了一些进展,但仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战,中山大学计算机学院、美团履约平台技术部开展了学术合作项目,联合提出了一种新颖的离线MARL算法——样本内顺序策略优化(In-Sample Sequential Policy Optimization, InSPO),该方法通过顺序更新每个智能体的策略,避免选择OOD联合动作,同时增强了智能体之间的协调性。

2024年12月11 日,中山大学计算机学院的刘宗凯、林谦、余超和伍夏威等学术界的专家和教授,跟美团技术团队联合发表了一篇技术论文《Offline Multi-Agent Reinforcement Learning via In-Sample Sequential Policy Optimization》(论文下载)。研究团队的主要贡献在于提出了InSPO算法,该算法不仅避免了OOD联合动作,还通过探索行为策略中的低概率动作,解决了提前收敛到次优解的问题。理论上InSPO保证了策略的单调改进,并收敛到量化响应均衡(QRE)。实验结果表明,InSPO在多个离线MARL任务中表现出了显著的效果,与当前最先进的方法相比具有明显的优势。

合作型马尔可夫博弈

在理解离线多智能体强化学习(MARL)中的样本内顺序策略优化之前,首先需要了解合

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值