多智能体深度强化学习的主要困难_多智能体强化学习入门(六)——MFMARL算法(Mean Field Multi-Agent RL)...

eebc997e1d568fbe0e11ead9c82243ba.png

一、引言

Mean Field Multi-Agent Reinforcement Learning(MFMARL) 是伦敦大学学院(UCL)计算机科学系教授汪军提出的一个多智能体强化学习算法。主要致力于极大规模的多智能体强化学习问题,解决大规模智能体之间的交互及计算困难。由于多智能体强化学习问题不仅有环境交互问题,还有智能体之间的动态影响,因此为了得到最优策略,每个智能体都需要考察其他智能体的动作及状态得到联合动作值函数。由于状态空间跟动作空间随着智能体数量的增多而迅速扩大,这给计算以及探索带来了非常大的困难。

MFMARL算法借用了平均场论(Mean Field Theory,MFT)的思想,其对多智能体系统给出了一个近似假设:对某个智能体,其他所有智能体对其产生的作用可以用一个均值替代。这样就就将一个智能体与其邻居智能体之间的相互作用简化为两个智能体之间的相互作用(该智能体与其所有邻居的均值)。这样极大地简化了智能体数量带来的模型空间的增大。应用平均场论后,学习在两个智能体之间是相互促进的:单个智能体的最优策略的学习是基于智能体群体的动态;同时,集体的动态也根据个体的策略进行更新。

下面具体介绍算法细节,其结合平均场论得出两个主要算法MF-Q与MF-AC,是对Q-learning以及AC算法的改进,并且在理论上给出了收敛性证明,能够收敛到纳什均衡点。该算法可以应用于竞争环境或合作环境,并且每个智能体不知道环境的模型以及奖励模型,但是能够观察邻居智能体的动作及奖励。每个智能体有自己的奖励值。

二、预备知识

为了帮助更好的理解MFMARL算法,这里简要回顾之前文章的内容。

1. 随机博弈

随机博弈的具体内容可以看多智能体强化学习入门(一)——基础知识与博弈。 将一个n智能体的随机博弈过程写为元组

,其中
为全局的状态信息,
为智能体
的动作空间,
为智能体i的奖励值,
为环境的状态转移概率,
为折扣系数。智能体
的策略定义为
,从状态到智能体动作空间概率分布的映射, <
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值