一、引言
Mean Field Multi-Agent Reinforcement Learning(MFMARL) 是伦敦大学学院(UCL)计算机科学系教授汪军提出的一个多智能体强化学习算法。主要致力于极大规模的多智能体强化学习问题,解决大规模智能体之间的交互及计算困难。由于多智能体强化学习问题不仅有环境交互问题,还有智能体之间的动态影响,因此为了得到最优策略,每个智能体都需要考察其他智能体的动作及状态得到联合动作值函数。由于状态空间跟动作空间随着智能体数量的增多而迅速扩大,这给计算以及探索带来了非常大的困难。
MFMARL算法借用了平均场论(Mean Field Theory,MFT)的思想,其对多智能体系统给出了一个近似假设:对某个智能体,其他所有智能体对其产生的作用可以用一个均值替代。这样就就将一个智能体与其邻居智能体之间的相互作用简化为两个智能体之间的相互作用(该智能体与其所有邻居的均值)。这样极大地简化了智能体数量带来的模型空间的增大。应用平均场论后,学习在两个智能体之间是相互促进的:单个智能体的最优策略的学习是基于智能体群体的动态;同时,集体的动态也根据个体的策略进行更新。
下面具体介绍算法细节,其结合平均场论得出两个主要算法MF-Q与MF-AC,是对Q-learning以及AC算法的改进,并且在理论上给出了收敛性证明,能够收敛到纳什均衡点。该算法可以应用于竞争环境或合作环境,并且每个智能体不知道环境的模型以及奖励模型,但是能够观察邻居智能体的动作及奖励。每个智能体有自己的奖励值。
二、预备知识
为了帮助更好的理解MFMARL算法,这里简要回顾之前文章的内容。
1. 随机博弈
随机博弈的具体内容可以看多智能体强化学习入门(一)——基础知识与博弈。 将一个n智能体的随机博弈过程写为元组