多智能体强化学习论文——QMIX

最新推荐文章于 2024-06-26 09:41:11 发布

条件反射104

最新推荐文章于 2024-06-26 09:41:11 发布

阅读量916

点赞数 1

分类专栏：多智能体强化学习

本文链接：https://blog.csdn.net/qq_40317204/article/details/119754949

版权

QMIX是一种用于部分可观测多智能体强化学习的方法，它解决了分散式策略的挑战。通过集中式训练获取额外状态信息，但采用分散式执行。QMIX在智能体的Q值和总体Q值之间建立了单调关系，使用超网络确保权重非负，从而能更有效地利用状态信息。实验表明，使用额外状态信息和非线性混合对于性能提升至关重要。

摘要由CSDN通过智能技术生成

存在的问题&研究动机&研究思路

利用额外状态信息学习联合动作价值的策略是一种attractive的方式，但分散式的策略尚不清晰，因此提出QMIX。
在部分可观测的情况下，只能依靠每个智能体历史的局部观测信息进行决策。
分散式的策略可以通过集中式的方式进行训练。这可以获得额外的状态信息，消除智能体之间通信的约束。这种方式遵循CTDE框架。
通过全局状态和联合动作得到的总体的Q值不能很好的提取分散式的策略，即智能体只根据自己的局部观测值进行决策。
思路之一是放弃集中式的动作价值函数，直接让每个智能体学习自己的一个Q值（IQL），但是这种方法不容易收敛。另一种极端思路是采取CTDE框架学习一个集中式的critic来指导每个actor的训练，一种方法是COMA，但是这需要on-policy的学习，采样效率低，且智能体变多的时候效果不好。
QMIX是介于IQL和COMA这两种极端方法之间，基于VDN的一种值分解方法。VDN将全局的动作价值函数看作是每个智能体Q值的累加。这限制打了功能的复杂性，并且没有使用额外的状体信息。
严格来说，VDN和QMIX的 $Q_a$ 和 $Q_{tot}$

关注

专栏目录