阅读QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

最新推荐文章于 2024-06-26 09:41:11 发布

有点可爱的小学僧

最新推荐文章于 2024-06-26 09:41:11 发布

阅读量1.5k

点赞数 4

分类专栏：多智能体强化学习

本文链接：https://blog.csdn.net/weixin_42426834/article/details/108874123

版权

多智能体强化学习专栏收录该内容

6 篇文章 15 订阅

订阅专栏

接上文VDN，本来我觉得QMIX全文会很难读，后来发现不是，哈哈，又畏难了，希望我挑战QTRAN和Qatten的时候也能这样。

QMIX

题目作者

在这里插入图片描述
ICML18，作者是COMA那个团队，老师应该就是 Shimon Whiteson，好像是Peter Stone的学生，后者是做多智能体的大佬。

摘要

这篇文章是接着VDN做的，也就是对于基于team reward的多智能体合作问题，采用强化学习，使用集中式训练分布式执行（CTDE）中的值分解的方法，来训练智能体。之前我们也提到了，CTDE是一个比较常见的训练框架，但是具体怎么集中式训练仍然是一个开放式的问题，VDN中选择从值分解的角度集中式训练，认为team reward= $\sum_i Q_i$ ， $Q_i$ 是每个智能体网络估计的价值网络函数值（可能也不能叫这个，因为没有对应给定的实际的奖励），对此QMIX认为这里存在两个改进，首先在集中式训练的过程中VDN没有充分利用到集中式的优势、充分利用信息，其次team reward= $\sum_i Q_i$ 这种简单的线性加和方式不能很好地覆盖到大多的多智能体问题，因此作出了他们的工作。

方法

再一次的我们强调，一图胜千言！这个图它就画得很明白
在这里插入图片描述

首先针对VDN中 $Q_{tot}=\sum_i Q_i$ ，QMIX认为 $Q_{tot},Q_i$ 之间应该是非线性关系，这种关系相对覆盖的问题空间更大一些；
其次针对集中式训练利用信息，QMIX这里利用了状态信息 $s_t$ 。

这样再看figure2，（b）是整体的框架图，还是VDN那个形式，只是用mixing network取代了简单的加和，其次在mixing network里面还利用了 $s_t$ 作为输入，而且是从不同层分别输入 $s_t$ ，作者认为这样可以更加弹性地利用 $s_t$ 的信息，而不是简单的像针对 $Q_i$ 一样处理。

那么在QMIX这里， $Q_{tot},Q_i$ 是什么关系呢？
作者认为，为了保持训练和测试的一致性，只要让二者有以下关系就可以了：

在这里插入图片描述
也就是 $Q_{tot}\text{对于}Q_i$ 是单调的就可以了，对此在mixing network里我们让权重向量 $W_1,W_2$ 都是正的即可。以上就是又实现了非线性关系，又保持了一致性。

实验和结果

作者先在一个Two-Step Game中验证了QMIX模型的表征复杂度的能力（就是对于这个两步博弈，QMIX可以找到最优解的，但是可能因为单个智能体和总的reward之间的关系不是VDN所想的那种完全分解，因此VDN没有找到最优解，所以VDN无法表征这个问题），同时在星际微操上做了实验，选取了几个地图，发现效果比QMIX，IQL好，而且对非线性、集中式利用状态信息分别做了消融实验，下面是结果图，小标题分别是地图上双方的单位配置，3m就是3个marine，2s_3z就是2个stalker，3个zealot
在这里插入图片描述
QMIX-LIN: 非线性变成线性；QMIX-NS: 没用状态信息；VDN-S: VDN加上状态信息
从（a）中可以看出：在同质智能体的环境中，未必要使用非线性的方式，但是非线性方式本身也没有降低学习速度；从（b）©异质地图中可以看出，非线性的方法对于这种问题还是比较合适的；从VDN-s和QMIX-NS中也可以看到，用了s比较好，而从QMIX比qmix-lin，vdn-s都要好看出，在s上添加非线性就是如虎添翼的效果。

其他

这篇文章写得也挺好的，实验也挺好读，另外图非常不错，一图胜千言！总之读完你就觉得嗯挺有道理的，实验也挺有道理的，当然这里面这个非线性的实现感觉还是值得再思考的。

有点可爱的小学僧

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
阅读QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

接上文VDN，本来我觉得QMIX全文会很难读，后来发现不是，哈哈，又畏难了，希望我挑战QTRAN和Qatten的时候也能这样。QMIX题目作者摘要方法实验和结果其他题目作者ICML18，作者是COMA那个团队，老师应该就是 Shimon Whiteson，好像是Peter Stone的学生，后者是做多智能体的大佬。摘要这篇文章是接着VDN做的，也就是对于基于team reward的多智能体合作问题，采用强化学习，使用集中式训练分布式执行（CTDE）中的值分解的方法，来训练智能体。之前我们也提到了
复制链接

扫一扫

专栏目录