Value-Decomposition Networks For Cooperative Multi-Agent Learning笔记

Value-Decomposition Networks For Cooperative Multi-Agent Learning

1. 论文讲了什么/主要贡献是什么

多代理强化学习任务的解决方案存在完全集中,和独立学习两种方案。将二者结合,得到了集中学习、分散决策的值分解网络,并利用已有技术如DQN架构、目标网络、经验回放、Dueling网络以及面向部分可观测环境下采用的RNN网络,设计出值分解网络架构。并利用已有的训练方法——BPTT进行训练。在此基础上增加权值共享、代理间通信以及角色信息进一步提高的模型性能。
文中只测试了在两个代理环境下的数据,当代理数量增加后,各个代理接收到的联合奖励信息大部分来自其它代理,这使问题会变得更加复杂,并且代理数量增多后集中学习也不容易实现。

2. 论文摘要:

We study the problem of cooperative multi-agent reinforcement learning with a single joint reward signal. This class of learning problems is difficult because of the often large combined action and observation spaces. In the fully centralized and decentralized approaches, we find the problem of spurious rewards and a phenomenon we call the “lazy agent” problem, which arises due to partial observability. We address these problems by training individual agents with a novel value decomposition network architecture, which learns to decompose the team value function into agent-wise value functions. We perform an experimental evaluation across a range of partially-observable multi-agent domains and show that learning such value-decompositions leads to superior results, in particular when combined with weight sharing, role information and information channels.

我们研究了在单一联合奖励信号下的协作多代理强化学习问题。这类学习问题很困难,因为组合的动作和观测空间通常很大。在完全集中和分散的方法中,我们发现了虚假奖励的问题和一种现象,我们称之为“懒惰代理”问题,它是由部分可观测性引起的。我们通过一个新的价值分解网络架构来训练个体代理来解决这些问题,该架构学会了将团队价值函数分解成代理的价值函数。我们在一系列部分可观察的多代理领域中进行了实验评估,结果表明,学习这种价值分解可以得到更好的结果,特别是在与权重共享、角色信息和信息通道相结合的情况下。

3. 论文主要观点:

3.1 背景:

在协作多代理强化学习中,多个学习代理联合最优化一个团队奖励。团队奖励随时间积累。每个代理能够获得它本地的观测并能够根据观测从代理各自的动作集中选择相应的动作。这通常被用到自动驾驶汽车和交通系统中的交通信号控制上,或者用于优化包含多个单元相交互场景的工厂的产能。并且,随着AI代理变得越来越普遍,代理之间需要学习协作行为来实现共同的目标。

虽然协作中每个代理都需要本地的自动化,但是还是可以把协作多代理强化学习通过集中方式解决,从而将协作多代理强化学习简化为了一个在一个多个代理观测空间和动作空间串联生成的新的观测空间和动作空间上的单代理强化学习。但这样的效果并不好,因为会存在多个代理中仅有一个代理达到最优化其它代理“懒惰”的问题,因为在一个代理学习到一个有效的策略后,第二个代理就不再被鼓励进行探索和学习,因为这会对第一个代理带来干扰并导致出现不好的团队奖励。

还有一种方法是训练独立的学习器,从而优化团队奖励。但这也存在问题:

  • 不稳定学习,代理所面对的环境会随着其它代理行动策略的改变而改变
  • 面对部分可观测的环境,代理会接收到来自队员未观测到的行为的假的奖励信号

因为无法解释代理观测到的奖励信号的问题,单纯的独立强化学习通常效果不好。例如Claus和Boutilier (1998)展示了独立的Q学习器无法将队友的探索与环境中的随机性区分开来。

提高独立学习器表现的一种方法是设计单独的奖励函数,与代理各自的观测更直接相关。然而即使在单代理环境下,奖励的shaping也是困难的,只有很少一类塑造奖励函数能够保证在相应目标上达到最优。而在这篇论文中提出了更普遍的自动化解决方案——学习分解的奖励函数。

文中介绍了一种新的在单代理上的learned additive value-decomposition方法。价值分解网络的目标是通过表示各个代理的价值函数的深度神经网络反向传播整体Q的梯度,从团队奖励信号中学习最优的线性价值分解。**这种累计值分解的方法能够避免在纯独立学习中的虚假奖励的问题。**各代理学习的隐式值函数只依赖于局部观测,学习起来比较容易。我们的解决方案还改善了Claus和Boutilier(1998)强调的自主学习的协调问题,因为它在训练时有效地集中学习,而代理可以单独部署。

此外,文中还评估了权值共享、角色信息和信息通道,作为这个方法的加强,这些附加方法能够改善样本复杂度和内存需求。

文中比较了各个代理的价值分解架构、独立学习器的架构和集中方式的架构。在双玩家的协调领域中进行了基准测试,发现与集中化或完全独立的学习器相比,价值分解是一种更好的执行方法,并且当与其他技术相结合时,会产生一种始终比集中化和独立的学习器表现更好的代理。

相关工作

此前已经有通过优化各个独立的代理的Q函数获得奖励,并将独立的奖励累加得到全局奖励,再通过贪婪的策略根据全局奖励选择动作决策的算法。这篇文章的算法是只利用一个全局的奖励,并从经验中学习到价值分解。

还有基于不同奖励的方式解决这个问题的方法,评估代理动作对系统奖励的影响。易学习,但需要系统状态信息,这是不实际的。

3.2 问题:

多代理强化学习问题——局部可观测马尔科夫决策过程。

Dec-POMDP问题的描述:

A fully cooperative multi-agent task can be described as a Dec-POMDP (Oliehoek & Amato, 2016) consisting of a tuple G = < S , U , P , r , Z , O , n , γ > . s ∈ S G = <S, U, P, r, Z, O, n, γ>. s ∈ S G=<S,U,P,r,Z,O,n,γ>.sS describes the true state of the environment. At each time step, each agent a ∈ A ≡ { 1 , … , n } a \in A \equiv\{1, \ldots, n\} aA{ 1,,n} chooses an action u a ∈ U , u^{a} \in U, uaU, forming a joint action u ∈ U ≡ U n . \mathbf{u} \in \mathbf{U} \equiv U^{n} . uUUn. This causes a transition on the environment according to the state transition function P ( s ′ ∣ s , u ) : S × U × S → [ 0 , 1 ] . P\left(s^{\prime} | s, \mathbf{u}\right): S \times \mathbf{U} \times S \rightarrow[0,1] . P(ss,u):S×U×S[0,1]. All agents share the same reward function r ( s , u ) : S × U → R r(s, \mathbf{u}): S \times \mathbf{U} \rightarrow \mathbb{R} r(s,u):S×UR and γ ∈

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值