[NIPS2020] Weighted QMIX: Expanding Monotonic Value Function Factorisation 笔记

最新推荐文章于 2024-09-08 17:35:37 发布

强殖装甲凯普

最新推荐文章于 2024-09-08 17:35:37 发布

阅读量1.2k

点赞数 2

分类专栏：论文笔记

本文链接：https://blog.csdn.net/qq_38163755/article/details/107858424

版权

本文是对NIPS2020中Weighted QMIX论文的笔记，探讨了QMIX算子的局限性和解决方案。作者指出QMIX在处理依赖其他agent动作的值函数时存在困难，提出了加权QMIX算子，通过调整权重来更准确地估计最优联合动作的值，以改进多智能体强化学习中的价值函数分解。文章介绍了两种赋权方式，即Idealised Central Weighting和Optimistic Weighting，并在星际争霸2实验中验证了效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

认识到自己确实没有很多MARL的经验，最近就进行了代码实践，不然看论文想idea总是空中楼阁，而且就算有好的想法，没有对比的算法也不行，所以还是要有自己的算法库，这样不论做项目还是做实验都会方便。最近照着师兄的代码实现了一遍QMIX，值分解的套路算是明白了。代码经验真的得靠实践，实践才会知道paper之外的各种问题。而且算法效率很重要，可以帮忙缩短一半时间。但是不要陷入代码改进的泥潭，比如为了更好的可视化搞半天，或者是项目结构调来调去，纠结哪些封装哪些不封装。这是无底洞，我的目标还是实现更多的SOTA，正好QMIX出后续了，研究研究，实现一波。

我的实现可以在这里获得，欢迎给star，提意见。

Introduction

QMIX通过将联合动作的Q值表示限制为每个agent效用的单调混合来实现简单的分布式。然而这种限制使其难以表示依赖其他agent动作的值函数。如果一个agent对动作的选择依赖其他agent的动作，那么这就不是单调的。因此QMIX难以解决在一个时间步里需要明显协作的任务。作者分析认为QMIX是一个算子，首先计算Q-learning targets，然后将他们映射到 $Q^{mix}$ ，最小化所有联合动作上的无权均方差。 $Q^*$ 的投影记做 $Q_{tot}$ 。由于 $Q^*$ 不属于 $Q^{mix}$ ，因此对最优联合动作的估计是不正确的，甚至在可以获得真实 $Q^*$ 的时候也恢复不了最优策略。如果我们最终关心贪心最优策略，那么准确表示最优联合动作的值比次优动作的更重要。作者为了准确的映射，加入权值。