QMIX:用于深度多智能体强化学习的单调值函数分解

多智能体强化学习-QMIX论文名称:QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning01 介绍在多智能体强化学习中一种比较典型的学习模式为中心式训练,分布式执行,即在训练时利用所共享的信息来帮助更有效的分布式执行。然而,围绕如何最好地利用集中培训仍然存在着许多挑战。其中一个挑战是如何表示和使用大多数强化学习方法学习的动作值函数。一方面,正确地捕捉主体行为的影响,需要一个集中
摘要由CSDN通过智能技术生成

多智能体强化学习-QMIX

论文名称:QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

01 介绍

在多智能体强化学习中一种比较典型的学习模式为中心式训练,分布式执行,即在训练时利用所共享的信息来帮助更有效的分布式执行。然而,围绕如何最好地利用集中培训仍然存在着许多挑战。
其中一个挑战是如何表示和使用大多数强化学习方法学习的动作值函数。一方面,正确地捕捉主体行为的影响,需要一个集中的行动价值函数,它决定了全球状态和联合行动的条件。另一方面,当存在多个代理时,这样的函数很难学习,即使可以学习,也无法提供明显的方法来提取分散的策略,允许每个智能体根据单个观察结果选择单个操作。
面对上面的问题,已经有的解决方案是:
1.IQL:放弃学习中心式Qtot而转去对每个智能体学习一个独立的Qa。但是这个方法不能表现出智能体之间的互动,而且每个智能体的训练会被其他智能体的探索和学习干扰。
2.COMA:通过学习中心式的Qtot,用它来指导在参与者-批评家框架下的分散政策优化,但它需要on-policy,采样效率低。
3.QMIX:不同于上面两种方式,论文中提出学习一个中心式但可分解的Qtot即QMIX。它是一种新的基于价值的方法,可以以集中的端到端方式训练分散的策略。与这种算法相关的是2017年提出的VDN,VDN假设中心式的Qtot可以分解为各个Qa的线性相加,而QMIX可以视为VDN的拓展。

02 QMIX核心思路

让中心式Qtot对每个智能体Qa的

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值