混合合作-竞争环境的多代理行动者鉴定

这里主要探讨在多代理环境的强化学习方法。首先分析在多代理环境下传统算法面临的困难:Q学习面临环境内在非稳定性的挑战,而随着代理数量的增加,策略梯度面临变动。然后提出一个调整的行动者鉴定方法,以考虑其他代理的行动策略并能学习复杂多代理协调的策略。此外,我们介绍一个为每个代理使用策略聚合的训练方法,以取得更具抗干扰性的多代理策略。我们将它与现存的合作、竞争环境的方法相比较,我们的代理能发现多种物理和信息的协调策略。

介绍

强化学习(RL)近期被用来解决富有挑战性的问题,从玩游戏到机器人。在工业应用,RL逐渐成为大规模系统可行的组成部分如数据中心降温。大部分成功的RL在单个代理领域,为环境中其他行动者建模并预测他们的行为并不必要。

但是,有相当的应用涉及多个代理之间的互动,代理共同演化导致新的行为和更高的复杂性。例如,多个机器人控制,交流和语言的发现,多玩家游戏和社会困境分析,都涉及多代理领域。相关的问题,例如结构性强化学习的不同变体同样被视为多代理系统,多个层次被视为多个代理。此外多代理自我游戏最近被发现是一个有用的训练方法。成功地将RL扩展到多代理环境对于构建与人类或相互间互动的人工只能系统至关重要。

不幸的是,传统的强化学习方式如Q学习或策略梯度并不适应多代理环境。一个问题是每个代理的策略随着训练进程改变,因此从每个代理的角度看环境变得不稳定(以代理自身策略无法解释的方式)。这导致了学习稳定性的挑战和无法直接使用过去的经验,而这是稳定深度Q学习的关键。策略梯度方法则在多个代理协调时展现非常高的方差。可以使用基于模型的策略优化来使用反向传播学习最优策略,但这需要一个动态可微分模型以及代理互动的假设。从优化的角度应用这些方法在一个竞争环境依然充满挑战,如果对抗训练方法中所显示的极其的不稳定性。

在这里我们提出一个通用的多代理学习算法:在执行时间只用本地信息学习策略(他们自己的观察);不假设环境动态的可微分模型或者其他代理间的特殊交流结构;能够被用于不仅是合作,也包括竞争或混合互动,涉及物理和交流行为。能够在合作-竞争混合环境中采取行动对于智能代理至关重要;竞争训练提供了训练的自然课程,代理在执行时还必须展现合作行为(例如和人类)。

我们采取集中训练分散执行的框架,允许策略使用额外信息进行简单训练,只要该信息不用于测试。如果使用Q学习我们必须有关于环境结构的额外假设,因为Q函数无法包含训练和测试的不同信息。因此我们提出一个简单的行动者-鉴定策略梯度方法,鉴定随着其他代理策略的信息提升,而行动者只能获取本地信息。训练结束后,只有本地行动者在执行阶段使用,以分散的方式并且可同样应用于合作或竞争情境。

考虑到集中的鉴定策略明确的使用其他代理的决策策略,我们显示代理可以学习其他在线代理的大致模型并有效的将其使用在自身的策略学习过程。我们同时引入方法来提高多代理策略的稳定性,通过用聚合策略来训练代理,因此需要多种合作者和竞争者策略的抗干扰性互动。实践中我们的方法在合作和竞争的情境中优于现存的方法,代理可发现负责的物理和通信协调策略。

相关工作

在多代理环境中最简单的学习方式是使用独立的学习代理。此前尝试使用Q学习但在实践中表现不佳。独立学习策略梯度方法同样表现极差。一个问题是每个代理的策略在训练时改变,导致了不稳定的环境,使得无法使用经验重放这样的简单应用。此前的工作试图解决这个问题,通过将其他代理的策略参数放入Q函数,明确的将迭代索引加入重放缓冲,或者使用重要性取样,但这些方法在实践中效果不一。深度Q学习方法此前被在训练竞争性Pong代理中探讨。

代理间互动的本质要么是合作、要么是竞争,或者两者兼具,但很多算法只能用于其中一种互动。大部分研究在合作设定,采用如乐观和滞后Q函数更新,假设其他代理的行为会导致整体奖励的提升。另一种方法是通过分享策略参数来实现合作,但这要求所有代理都相同。这些算法在竞争或混合设定中并不适用。与我们工作同时提出的一个类似的想法是使用集中鉴定的策略梯度方法,并在StarCraft微管理任务中测试。

最近的工作集中于学习代理间基本的合作交流协议来解决不同任务。但是,这些方法假设环境动态,并且仅可应用于特定的、可微分交流通道的代理间互动。

我们的方法要求明确的为其他代理的的决策过程建模。这个建模的重要性被强化学习和认知科学界广泛认同。其他代理决策过程抗干扰的重要性被强调,也有人使用贝叶斯模型来进行决策制定。我们将这中抗干扰性融入,要求代理与其他代理的聚合策略成功互动,提高训练的稳定性和训练后代理的抗干扰性。

方法

实验

我们使用基本的交流环境,包括在2维世界连续空间和离散时间中的N个代理,L个地标。代理可在环境中进行物理动作并以广播的形式与其他代理交流。我们不假设所有代理有相同的行动和观察空间,或依据相同策略行动。我们考虑既合作(所有代理必须最大化一个共享的收益)又竞争(代理有互相矛盾的目标)。一些环境要求代理间明确的交流以取得最佳奖励,而另一些环境代理仅能进行物理动作。每个环境如下图所示:


比较

我们在上述环境中使用MADDPG算法。除非另外说明,我们的策略参数包括一个两层ReLU的MLP,每层64个单元。为支持离散交流信息,我们使用Gumbel-Softmax估算器。为评估在竞争设定中学到的策略质量,我们将MADDPG代理与DDPG代理比较。我们训练模型直到收敛,然后用下一个1000步迭代的不同度量平均数来评估它们。一些结果如下:




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值