存在的问题&研究动机&研究思路
- 对于CTDE框架下的多智能体值方法,joint greedy action应该等于每个个体的greedy action的集合,即IGM原则。
- VDN和QMIX提出的联合效用函数与单体效用函数的相加性和单调性。
创新点
- 提出了advantage-based IGM,将IGM的动作值函数一致性约束转化为优势函数的一致性约束。
- 一致性约束的好处是,它可以通过限制优势函数的取值范围,直接实现其一致性约束。
- 最终的
Q
t
o
t
Q_{tot}
Qtot可以写为:
等式右边第一项是VDN,第二项是对第一项表达不完全的一个修正,是QPLEX的主要贡献。 - 全局信息可以是全局状态 s s s,如果得不到,那么就用联合动作观测历史 τ \tau τ。