QMIX:用于深度多智能体强化学习的单调值函数分解

最新推荐文章于 2024-06-26 09:41:11 发布

开飞机的贝塔儿

最新推荐文章于 2024-06-26 09:41:11 发布

阅读量2.1k

点赞数 1

分类专栏：多智能体强化学习 QMIX 文章标签：算法人工智能机器学习

本文链接：https://blog.csdn.net/dmj3214/article/details/108195228

版权

QMIX是一种用于深度多智能体强化学习的算法，通过学习一个中心式但可分解的Qtot来实现分散策略的训练。它解决了IQL和COMA方法中的问题，通过确保Qtot对每个智能体Qa的导数大于等于0，保证了分布式执行的策略优化。QMIX模型包括agent网络、混合网络和超网络，能够有效地处理智能体数量增加带来的计算复杂性问题。

摘要由CSDN通过智能技术生成

多智能体强化学习-QMIX

论文名称：QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

01 介绍

在多智能体强化学习中一种比较典型的学习模式为中心式训练，分布式执行，即在训练时利用所共享的信息来帮助更有效的分布式执行。然而，围绕如何最好地利用集中培训仍然存在着许多挑战。
其中一个挑战是如何表示和使用大多数强化学习方法学习的动作值函数。一方面，正确地捕捉主体行为的影响，需要一个集中的行动价值函数，它决定了全球状态和联合行动的条件。另一方面，当存在多个代理时，这样的函数很难学习，即使可以学习，也无法提供明显的方法来提取分散的策略，允许每个智能体根据单个观察结果选择单个操作。
面对上面的问题，已经有的解决方案是：
1.IQL：放弃学习中心式Qtot而转去对每个智能体学习一个独立的Qa。但是这个方法不能表现出智能体之间的互动，而且每个智能体的训练会被其他智能体的探索和学习干扰。
2.COMA：通过学习中心式的Qtot，用它来指导在参与者-批评家框架下的分散政策优化，但它需要on-policy，采样效率低。
3.QMIX:不同于上面两种方式，论文中提出学习一个中心式但可分解的Qtot即QMIX。它是一种新的基于价值的方法，可以以集中的端到端方式训练分散的策略。与这种算法相关的是2017年提出的VDN，VDN假设中心式的Qtot可以分解为各个Qa的线性相加，而QMIX可以视为VDN的拓展。

02 QMIX核心思路

让中心式Qtot对每个智能体Qa的

最低0.47元/天解锁文章

开飞机的贝塔儿

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
QMIX:用于深度多智能体强化学习的单调值函数分解

多智能体强化学习-QMIX论文名称：QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning01 介绍在多智能体强化学习中一种比较典型的学习模式为中心式训练，分布式执行，即在训练时利用所共享的信息来帮助更有效的分布式执行。然而，围绕如何最好地利用集中培训仍然存在着许多挑战。其中一个挑战是如何表示和使用大多数强化学习方法学习的动作值函数。一方面，正确地捕捉主体行为的影响，需要一个集中
复制链接

扫一扫

专栏目录