摘要
多智能体(multi-agent)强化学习不仅有环境交互问题,还有智能体之间的相互影响,甚至智能体对环境施加的作用可能反过来影响智能体自身下一步行为的选择,状态空间和动作空间均随着智能体数量增多而迅速扩大,对存储和运算等多方面都提出了新的要求和挑战。发表于ICLR2020的图卷积强化学习[1]融合了近期大热的多个研究方向,将“多智能体环境”嵌入图结构,并以卷积核与注意力分配的方式来模拟智能体在合作过程中的信息传递行为,学习不同场景的合作策略,取得了超越前人的表现效果。
1、多智能体背景 自从DeepMind运用强化学习先在Atari游戏获得成功、后开发AlphaGo击败人类冠军选手,强化学习便迅速吸引了大众的目光;随着神经网络和计算机算力的发展,自动驾驶和机器人控制等领域的兴起,结合深度学习的深度强化学习也获得爆炸式增长。研究人员已不满足于单智能体的“简单”模型,开展了众多关于多智能体环境的探索与研究,例如发表于2016年NIPS的CommNet[2]创新地进行了多智能体之间通过交流与通讯(神经网络的反向传播)达到信息传递与共享,进而取得更高总奖励的尝试。2017年面世的MAgent[3]提供了一个可在一台GPU服务器上承载至多一百万个智能体的多智能体强化学习研发平台。而2018年ICML收录的工作 Mean Field Multi-Agent Reinforcement Learning[4](MFMA)近似地将除自己以外的其他智能体对自身的影响用均值代替,简化成one vs rest的效果,将多智能体合作课题研究又向前推进了一步。 受上述工作启发,[1]中介绍的图卷积强化学习(以下简称DGN)将拥有N个智能体的环境构造成图结构,其中每个智能体抽象为图中的一个点(node),智能体观察到的环境信息即为该点特征;根据“距离”或其他定制化度量可划定邻域,进而可定义“邻居”(neighbor),这样智能体与其邻居之间便有了边(edge)。智能体i的邻居的集合定义为![f576751bc2378f52f617c6fb4c5842ba.png](https://i-blog.csdnimg.cn/blog_migrate/85a8ecd2aa864bfd2633f13555fad323.jpeg)
![4cfe38996f0240f0e348c2c366afe434.png](https://i-blog.csdnimg.cn/blog_migrate/746d8f52ca7f4549a9453d8f02852421.jpeg)
![4920e592a5212017a96c12591adfd7f7.png](https://i-blog.csdnimg.cn/blog_migrate/561267dfe8587cb01067870895039f99.jpeg)