存在的问题&研究动机&研究思路
- 利用额外状态信息学习联合动作价值的策略是一种attractive的方式,但分散式的策略尚不清晰,因此提出QMIX。
- 在部分可观测的情况下,只能依靠每个智能体历史的局部观测信息进行决策。
- 分散式的策略可以通过集中式的方式进行训练。这可以获得额外的状态信息,消除智能体之间通信的约束。这种方式遵循CTDE框架。
- 通过全局状态和联合动作得到的总体的Q值不能很好的提取分散式的策略,即智能体只根据自己的局部观测值进行决策。
- 思路之一是放弃集中式的动作价值函数,直接让每个智能体学习自己的一个Q值(IQL),但是这种方法不容易收敛。另一种极端思路是采取CTDE框架学习一个集中式的critic来指导每个actor的训练,一种方法是COMA,但是这需要on-policy的学习,采样效率低,且智能体变多的时候效果不好。
- QMIX是介于IQL和COMA这两种极端方法之间,基于VDN的一种值分解方法。VDN将全局的动作价值函数看作是每个智能体Q值的累加。这限制打了功能的复杂性,并且没有使用额外的状体信息。
- 严格来说,VDN和QMIX的 Q a Q_a Qa和 Q t o t Q_{tot} Qtot