QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning笔记

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

1. 论文讲了什么/主要贡献是什么

在多代理强化学习中,存在代理单独计算价值函数和完全集中计算价值函数两种方式,前者存在不稳定的问题,后者存在可扩展性差的问题(维度灾难)。作者在介于两者之前的VDN算法的基础上,对从单代理价值函数到中心价值函数之间的映射关系进行了改进,在映射的过程中将原来的线性映射换为非线性映射,并通过超网络的引入将额外状态信息加入到决策过程,提高了模型性能。

2. 论文摘要:

In many real-world settings, a team of agents must coordinate their behaviour while acting in a decentralised way. At the same time, it is often possible to train the agents in a centralised fashion in a simulated or laboratory setting, where global state information is available and communication constraints are lifted. Learning joint actionvalues conditioned on extra state information is an attractive way to exploit centralised learning, but the best strategy for then extracting decentralised policies is unclear. Our solution is QMIX, a novel value-based method that can train decentralised policies in a centralised end-to-end fashion. QMIX employs a network that estimates joint action-values as a complex non-linear combination of per-agent values that condition only on local observations. We structurally enforce that the joint-action value is monotonic in the per-agent values, which allows tractable maximisation of the joint action-value in off-policy learning, and guarantees consistency between the centralised and decentralised policies. We evaluate QMIX on a challenging set of StarCraft II micromanagement tasks, and show that QMIX significantly outperforms existing value-based multi-agent reinforcement learning methods.

在许多实际环境中,一组代理必须协调它们的行为,同时以一种去中心化的方式行动。 同时,在仿真或实验室环境中以集中的方式训练代理是可能的,在这种环境下,能够获得全局状态信息并且不再存在通信限制。以额外的状态信息为条件的联合动作价值学习是利用集中学习的一种有吸引力的方式,但随后提取分散政策的最佳策略还不清楚。我们的解决方案是QMIX,这是一种基于价值的新方法,可以以集中的端到端方式训练去中心化的策略。QMIX使用了一个网络,该网络将单个代理值的复杂非线性组合作为联合动作值进行估计,而每个代理值仅根据本地观测得到。我们在结构上强制每个代理的联合动作值是单调的,这使得在非策略学习中联合动作值的最大化能够实现,并保证了集中化和去中心化策略之间的一致性。我们在一组极具挑战性的星际争霸2微管理任务中对QMIX进行了评估,结果表明QMIX显著优于现有的基于价值的多智能体强化学习方法。

3. 论文主要观点:

3.1 背景:

强化学习在解决多代理协作问题如机器人群和自动驾驶汽车上有很大的潜力。在这种环境下,局部可观测性和通信限制使学习一个去中心化的策略成为必须,代理只根据本地观测历史进行决策。去中心化的的策略也减弱了联合动作空间随代理数量成指数增长的问题,这个问题使得传统的单代理RL方法无法应用到多代理场景中。幸运的是,去中心化的策略通常可以在仿真或实验室环境中以集中的方式学习。从而代理能够访问更多的状态信息,并移除了代理间的通信限制。集中训练分散执行的方式(Oliehoek et al., 2008; Kraemer & Banerjee, 2016)在强化学习领域中获得了更多的关注(Jorge et al., 2016; Foerster et al., 2018)。然而,关于如何最好地利用集中训练的许多挑战仍然存在。

这些挑战之一是如何表示和使用大多数RL方法学习的动作值函数。获得一个有效的代理动作决策需要一个基于全局状态和联合动作的中心动作价值函数 Q t o t Q_{tot} Qtot。另一方面,当有许多代理时,这样的函数很难学习,而且即使可以学习,也没有明显的方法来提取分散的策略,从而基于这些策略能够允许每个代理仅根据独立的观测选择独立的动作。

最简单的方法是使每个代理学习一个单独的动作价值函数 Q a Q_a Qa,例如Independent Q-learning (IQL) (Tan, 1993)。然而,这种方法不能明确地表示代理之间的交互,也可能不收敛,因为每个代理的学习都被其它代理的学习和探索干扰。

还有一种方法是学习一种完全集中化的状态动作价值函数 Q t o t Q_{tot} Qtot,使用这个价值函数来在actor-critic框架下生成一个去中心化的策略,例如Counterfactual multi-agent (COMA) policy gradients (Foerster et al., 2018)以及Gupta et al. (2017)。然而,这需要策略学习,而策略学习的样本效率可能很低,而且,当有多个代理时,训练完全集中的critic变得不切实际。

在这两个极端之间,我们可以学习一种集中化但经过分解的 Q t o t Q_{tot} Qtot,这是价值分解网络(VDN)采用的一种方法(Sunehag et al., 2017)。 Q t o t Q_{tot} Qtot为所有代理基于各自观测的价值函数 Q a Q_a Qa的和,那么去中心化的策略就可以通过每个代理通过贪婪策略选择使它自己的价值函数最大化的动作 Q a Q_{a} Qa。然而,VDN严重限制了可表示的集中化动作价值函数的复杂性,并且忽略了训练期间可用的任何额外状态信息。

3.2 问题:

Dec-POMDP问题的描述:

A fully cooperative multi-agent task can be described as a Dec-POMDP (Oliehoek & Amato, 2016) consisting of a tuple G = < S , U , P , r , Z , O , n , γ > . s ∈ S G = <S, U, P, r, Z, O, n, γ>. s ∈ S G=<S,U,P,r,Z,O,n,γ>.sS describes the true state of the environment. At each time step, each agent a ∈ A ≡ { 1 , … , n } a \in A \equiv\{1, \ldots, n\} aA{ 1,,n} chooses an action u a ∈ U , u^{a} \in U, uaU, forming a joint action u ∈ U ≡ U n . \mathbf{u} \in \mathbf{U} \equiv U^{n} . uUUn. This causes a transition on the environment according to the state transition function P ( s ′ ∣ s , u ) : S × U × S → [ 0 ,

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值