ICML 2023 | RACE:使用进化算法大幅提升多智能体强化学习算法学习

天津大学强化学习实验室提出RACE框架,结合进化算法和多智能体强化学习(MARL)以提升协作效率。RACE通过表征不对称团队构建和协作进化,解决了MARL的低奖励信号质量、探索性差、非稳态性及部分观测等问题。研究证明,RACE在复杂控制任务中能显著提升MARL性能,代码已开源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2f5f4fb0e6874e6cebfd1aad83da5f62.gif

©PaperWeekly 原创 · 作者 | 李鹏翼

单位 | 天津大学郝建业课题组

研究方向 | 演化强化学习

本次介绍的是由天津大学强化学习实验室(http://icdai.org/)提出多智能体进化强化学习混合框架 RACE。该框架充分融合了进化算法与多智能体强化学习用于多智能体协作,并首次在复杂控制任务上证明了进化算法可以进一步提升 MARL 的性能。目前代码已经开源。

7fce17ca862607384cd966a47cd440cb.png

论文题目:

RACE: Improve Multi-Agent Reinforcement Learning with Representation Asymmetry and Collaborative Evolution

论文链接:

https://proceedings.mlr.press/v202/li23i.html

代码链接:

https://github.com/yeshenpy/RACE

5ad259d09b224266ba2239334a3df371.png

Necessary Background and Problem Statement

1.1 Multi-Agent Reinforcement Learning

在多智能体强化学习(MARL)中,各个智能体与环境以及彼此进行交互,收集样本并接收奖励信号来评估它们的决策。通过利用价值函数逼近,MARL 通过梯度更新来优化策略。然而,MARL 经常面临以下挑战:

➢(Low-quality reward signals,低质量的奖励信号)奖励信号通常质量较低(例如,具有欺骗性、稀疏性、延迟性和只有 team level 的奖励信号),这使得获得准确的价值估计变得非常困难。

➢(Low exploration for collaboration,合作的探索性差)由于多智能体策略空间巨大,基于梯度的优化方法很容易陷入次优点,难以高效地探索多智能体策略空间,使得协作困难。

➢(Non-stationarity,非稳态性)由于智能体同时学习并不断地相互影响,打破了大多数单智能体强化学习算法所基于的马尔可夫假设,使得优化与学习过程过程不稳定。

➢(Partial observations,部分观测)大部分多智能体场景下都是部分可观测的,智能体无法得知其它智能体的状态以及相关信息,使得策略优化变得更加具有挑战性。

1.2 Evolutionary Algorithm

进化算法(Evolutionary Algorithm,EA)模拟了自然的遗传进化过程,不依赖于梯度信息进行策略优化,并已被证明在与强化学习(RL)竞争中表现出色。与通常仅维护一种策略的强化学习不同,EA 维护一个个体的群体,并根据策略适应度进行迭代演化。适应度通常被定义为一些回合的平均蒙特卡洛(Monte Carlo,MC)回报。

进化算法(EA)具有几个关键优势:

➢(对奖励质量不敏感)EA 不需要强化学习价值函数逼近,而是根据适应度,即累积奖励,直接对群体中的个体进行进化。这使得 EA 对奖励信号质量相对不敏感。

➢(避免非稳态问题)EA 在问题的形式化中不依赖于马尔可夫性质,并从团队的角度演化策略,从而避免了 MARL 中遇到的非稳态性问题。

➢(探索能力,鲁棒性,收敛性强)EA 具有强大的探索能力、良好的鲁棒性和稳定的收敛性。

下图是一个简化过的 EA 优化流程。

507986b5b9a5b496beb6f64964064b37.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值