阅读Qatten：A General Framework for Cooperative Multiagent Reinforcement Learning

最新推荐文章于 2023-06-29 10:29:26 发布

有点可爱的小学僧

最新推荐文章于 2023-06-29 10:29:26 发布

阅读量1.4k

点赞数 2

分类专栏：多智能体强化学习

本文链接：https://blog.csdn.net/weixin_42426834/article/details/109045675

版权

多智能体强化学习专栏收录该内容

6 篇文章 15 订阅

订阅专栏

写在前面：还是那句话，不要怕理论，一个知识点一个知识点地理解。胡适说：“怕什么真理无穷，进一步有一步的欢喜”。

题目作者

在这里插入图片描述
2020.06，arXiv，v2。天津大学Jianye Hao老师组的工作，一作的Yaodong Yang也很厉害,可以重点关注郝老师他们组里的工作。

摘要

这篇同样是值分解路线下的一篇工作，作者认为之前的VDN,QMIX将 $Q_{tot},Q_i$ 之间的关系做了假设限制（加性、单调），且缺少理论分析，而QTRAN虽然没有限制二者的关系，但是比较难优化求解，在实际QTRAN的使用中往往是松弛了一些约束最终导致实验的性能不是特别好。在本篇工作里，作者从理论上推导了 $Q_{tot},Q_i$ 之间的关系，然后据此提出了一个基于attention的值分解框架Qatten。

方法

理论证明

重要理论推导⬇，作者证明了 $Q_{tot},Q_i$ 之间关系应该为：在这里插入图片描述
具体的证明论文里有，简单写一下：
参考知乎的这篇文章: 知乎

再加上附录里这段证明：

注知识点：公式13是多元函数在0点的泰勒展开形式。

实际方法

认真看这个式子：
在这里插入图片描述
$Q_{tot}$ 看似是 $Q_i$ 的加权线性组合，当然这里的 $\lambda_{i.h}$ 和其他智能体Q有关，在这里作者使用了attention机制来逼近 $\lambda$ ，具体的算法框架图：

$\lambda$ 是用全局状态和每个智能体的特征算的attention，在这个框架的左上角有两种对h求和的方式，一种是直接加，一种是加权组合，从后续的Ablation Study中加权组合的性能更好，作者认为这种加权的组合可以更好描述 $Q_{tot}$ 和 $Q_i$ 之间的关系，缓解了注意力机制所加的boundedness,(可能提供了对每个 $Q_i$ 权重的上界和下届吧)。

实验

在相对复杂的SMAC地图上和其他sota算法的比较：
在这里插入图片描述

写在后面

其实粗鲁一点看Qatten，尤其是不加对h再次组合的部分，感觉好像是VDN的加权组合版本，但是当然attention机制的表示性是非常强大的，从实验上也能看出这种框架相比VDN还是很有优势的，这个后续可能可以深入研究推广；另外作者从理论上分析了 $Q_{tot}$ 和 $Q_i$ 之间的关系，而且在这个框架上由 $\lambda$ 可以看出 $Q_{tot}$ 对于不同智能体的关注，相比QMIX的黑箱，对于理解总的价值函数和每个智能体的关系、对于算法的可解释性都有一定的帮助，实验结果那里也有一定的可视化分析感兴趣的朋友可以再看看。

有点可爱的小学僧

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
阅读Qatten：A General Framework for Cooperative Multiagent Reinforcement Learning

写在前面：还是那句话，不要怕理论，一个知识点一个知识点地理解。胡适说：“怕什么真理无穷，进一步有一步的欢喜”。目录题目作者摘要方法理论证明实际方法实验写在后面题目作者2020.06，arXiv，v2。天津大学Jianye Hao老师组的工作，一作的Yaodong Yang也很厉害,可以重点关注郝老师他们组里的工作。摘要这篇同样是值分解路线下的一篇工作，作者认为之前的VDN,QMIX将Qtot,QiQ_{tot},Q_iQtot,Qi之间的关系做了假设限制（加性、单调），且缺少理论分析，而Q
复制链接

扫一扫