QMIX Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
困难:如何去表达和使用强化学习学习到的action-value 函数:
1. 合适的获取智能体动作产生的影响需要集中的action-value函数基于全局的状态和联合的动作。
2. 在有多个智能体的时候的动作价值函数是难以学习的,即使能学习,也很难有效的策略依照单个智能体的观测数据。
已有方法:
1. 最简单的是每个智能体都训练一个自己的action-value函数, IQL,但是这个方法不能表现出智能体之间的互动,而且每个智能体的训练会被其他智能体的探索和学习干扰。
2. 训练一个完全中心化的action-value function, COMA.缺点:on-policy, 采样效率低,不能应对智能体太多的情况
3. 中间方法,训练一个既集中又分解的action-value Q, 一种方法通过value decomposition networks(VDN), Q是通过将每一个智能体用自己的观测数据学习到的action-value 函数相加得到的。这种方法缺点是太简单了,Q的表达能力有限。
QMIX
为了保持一致性,智能体不必需要每一个智能体的每个value, 而是只使用他们的argmax。
![720fa86598a8cdc6fcb95258892a480a.png](https://i-blog.csdnimg.cn/blog_migrate/00444a6b85ab9e1f826e332d93476415.png)
换句话说,我们的全局的Qtot所得到的