写在前面:还是那句话,不要怕理论,一个知识点一个知识点地理解。胡适说:“怕什么真理无穷,进一步有一步的欢喜”。
题目作者
2020.06,arXiv,v2。天津大学Jianye Hao老师组的工作,一作的Yaodong Yang也很厉害,可以重点关注郝老师他们组里的工作。
摘要
这篇同样是值分解路线下的一篇工作,作者认为之前的VDN,QMIX将 Q t o t , Q i Q_{tot},Q_i Qtot,Qi之间的关系做了假设限制(加性、单调),且缺少理论分析,而QTRAN虽然没有限制二者的关系,但是比较难优化求解,在实际QTRAN的使用中往往是松弛了一些约束最终导致实验的性能不是特别好。在本篇工作里,作者从理论上推导了 Q t o t , Q i Q_{tot},Q_i Qtot,Qi之间的关系,然后据此提出了一个基于attention的值分解框架Qatten。
方法
理论证明
重要理论推导⬇,作者证明了
Q
t
o
t
,
Q
i
Q_{tot},Q_i
Qtot,Qi之间关系应该为:
具体的证明论文里有,简单写一下:
参考知乎的这篇文章: 知乎
再加上附录里这段证明:
注知识点:公式13是多元函数在0点的泰勒展开形式。
实际方法
认真看这个式子:
Q
t
o
t
Q_{tot}
Qtot看似是
Q
i
Q_i
Qi的加权线性组合,当然这里的
λ
i
.
h
\lambda_{i.h}
λi.h和其他智能体Q有关,在这里作者使用了attention机制来逼近
λ
\lambda
λ,具体的算法框架图:
λ
\lambda
λ是用全局状态和每个智能体的特征算的attention,在这个框架的左上角有两种对h求和的方式,一种是直接加,一种是加权组合,从后续的Ablation Study中加权组合的性能更好,作者认为这种加权的组合可以更好描述
Q
t
o
t
Q_{tot}
Qtot和
Q
i
Q_i
Qi之间的关系,缓解了注意力机制所加的boundedness,(可能提供了对每个
Q
i
Q_i
Qi权重的上界和下届吧)。
实验
在相对复杂的SMAC地图上和其他sota算法的比较:
写在后面
其实粗鲁一点看Qatten,尤其是不加对h再次组合的部分,感觉好像是VDN的加权组合版本,但是当然attention机制的表示性是非常强大的,从实验上也能看出这种框架相比VDN还是很有优势的,这个后续可能可以深入研究推广;另外作者从理论上分析了 Q t o t Q_{tot} Qtot和 Q i Q_i Qi之间的关系,而且在这个框架上由 λ \lambda λ可以看出 Q t o t Q_{tot} Qtot对于不同智能体的关注,相比QMIX的黑箱,对于理解总的价值函数和每个智能体的关系、对于算法的可解释性都有一定的帮助,实验结果那里也有一定的可视化分析感兴趣的朋友可以再看看。