多智能体强化学习-QMIX
论文名称:QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
01 介绍
在多智能体强化学习中一种比较典型的学习模式为中心式训练,分布式执行,即在训练时利用所共享的信息来帮助更有效的分布式执行。然而,围绕如何最好地利用集中培训仍然存在着许多挑战。
其中一个挑战是如何表示和使用大多数强化学习方法学习的动作值函数。一方面,正确地捕捉主体行为的影响,需要一个集中的行动价值函数,它决定了全球状态和联合行动的条件。另一方面,当存在多个代理时,这样的函数很难学习,即使可以学习,也无法提供明显的方法来提取分散的策略,允许每个智能体根据单个观察结果选择单个操作。
面对上面的问题,已经有的解决方案是:
1.IQL:放弃学习中心式Qtot而转去对每个智能体学习一个独立的Qa。但是这个方法不能表现出智能体之间的互动,而且每个智能体的训练会被其他智能体的探索和学习干扰。
2.COMA:通过学习中心式的Qtot,用它来指导在参与者-批评家框架下的分散政策优化,但它需要on-policy,采样效率低。
3.QMIX:不同于上面两种方式,论文中提出学习一个中心式但可分解的Qtot即QMIX。它是一种新的基于价值的方法,可以以集中的端到端方式训练分散的策略。与这种算法相关的是2017年提出的VDN,VDN假设中心式的Qtot可以分解为各个Qa的线性相加,而QMIX可以视为VDN的拓展。
02 QMIX核心思路
让中心式Qtot对每个智能体Qa的