文章目录
前言
该文章应该是线性值分解这类方法增强mixing network表达能力的终曲了,结构已经相当复杂,集中程度很高,不知道后面的线性值分解方法会怎么做。
其他人的介绍:https://zhuanlan.zhihu.com/p/201419315
QPLEX: DUPLEX DUELING MULTI-AGENT Q-LEARNING
ADVANTAGE-BASED IGM
从Dueling DQN中的分解 Q = V + A Q=V+A Q=V+A 角度看,IGM的一致性约束应该仅仅约束优势项 A A A,与状态值函数 V V V 无关。因此作者将IGM原则重新形式化为基于优势的IGM,也就将一致性约束转移到了优势函数上。
以上就是基于优势的IGM。
The advantage-based IGM and IGM function classes are equivalent.
最优联合动作的优势函数与agent最优动作的优势函数相等为0,agent其余动作小于0,其余联合动作不大于0.
THE QPLEX ARCHITECTURE
结构图如下:
loss为:
文中的 V ( s ) V(s) V(s) 就是 max Q ( s , a ) \max Q(s,a) maxQ(s,a),所以优势函数不大于0,所以上面说最大最优动作为0,和 QTRAN 使用状态值网络输出的不同。
Individual Action-Value Function 就是 Q i ( τ i , a i ) Q_i(\tau_i,a_i) Qi(τ