智能体语言4

hello,这是鑫鑫鑫的论文分享站,今天分享的文章是Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments,是一篇关于多智能体语言的论文,我们一起看看吧~

本篇论文是继OpenAI团队之前的工作,《Emergence of Grounded Compositional Language in Multi-Agent Populations》发表之后,针对智能体产生symbol(词汇)后,又一个新作,描述了在一个竞争-合作型环境中,有两种不同的角色,行动者(actor)和评论者(critic)。评论者观察行动者的行为,而通过语言沟通,行动者可以从评论者那里获得其他行动者的状态和目标等信息,以此调整自己的行为。

摘要:

  • 分析了传统算法在多智能体情况下的困难:Q-learning受到环境内在的非平稳性的挑战,而策略梯度则受到随着智能体数量的增加而增加的方差的挑战。
  • 提出了一种actor-critic方法,该方法考虑了其他智能体的行动策略,并且能够成功地学习需要复杂的多智能体协调的策略。
  • 引入了一个训练方案,利用每个智能体的策略集合,从而导致更健壮的多智能体策略。
  • 展示了与现有的合作和竞争场景中的方法相比,我们的方法的长处,在这种情况下,智能体群体能够发现各种物理和信息协调策略。

1. 引言

强化学习(RL)最近已经被应用于解决具有挑战性的问题,从游戏[24,29]到机器人[18]。在工业应用中,RL正在成为数据中心冷却[1]等大型系统中的一个实际组成部分。RL的大部分成功都是在单一的智能体领域,即在环境中建模或预测其他行为者的行为基本上是不必要的。

然而,有许多重要的应用程序涉及到多个智能体之间的交互,其中突发的行为和复杂性是由智能体共同进化产生的。例如,多机器人控制[21]、通信和语言[31,8,25]的发现、多人游戏[28]以及社会困境[17]的分析都在多智能体领域运行。相关的问题,如层次结构强化学习[6]的变体,也可以看作是一个多智能体系统,其中多个层次层次结构等价于多个智能体。此外,多智能体self-play (例如:围棋) 最近已经被证明是一个有用的训练范式[29,32]。成功地将RL扩展到具有多个智能体的环境中,对于构建能够与人类和彼此之间有效交互的人工智能系统至关重要

不幸的是,传统的强化学习方法,如Q-learning或policy gradient,不适合于多智能体环境。 一个问题是,每个智能体的策略随着训练的进展而变化,从任何单个智能体的角度来看,环境变得非平稳(这种方式不能通过智能体自身策略的变化来解释)。 这带来了学习稳定性的挑战,并防止了过去经验回放的直接使用,这对对于稳定深度Q-learning至关重要。 另一方面,当需要多个智能体协调时,策略梯度方法通常表现出很高的方差。 或者,可以使用基于模型的策略优化,它可以通过反向传播学习最优策略,但这需要一个(可微的)世界动力学模型和关于智能体之间相互作用的假设。 从优化的角度来看,将这些方法应用于竞争环境也是具有挑战性的,对抗性训练方法的臭名昭著的不稳定性就是证明。

在本工作中,我们提出了一种通用的多智能体学习算法:
(1)导致只使用局部信息(即)的学习策略。 他们自己的观察)在执行时,
(2)不假定环境动力学的可微模型或智能体之间沟通方法的任何特定结构,
(3)不仅适用于合作互动,而且适用于涉及物理和交际行为的竞争或混合互动。

在混合合作竞争环境中行动的能力对于智能体来说可能是至关重要的;虽然竞争训练为学习[32]提供了一个自然的课程,但智能体也必须在执行时间表现出合作行为(例如:与人类)。

我们采用了具有分散执行的集中训练的框架,允许策略使用额外的信息来简化训练,只要这些信息不在测试时使用。在Q-learning不对环境结构做出额外假设的情况下这样做是不自然的,因为Q函数在训练和测试时通常不能包含不同的信息。因此,我们提出了一个简单的actor-critic策略梯度方法的扩展,其中批评者增加关于其他智能体策略的额外信息,而行动者只能访问本地信息。训练完成后,只有在执行阶段使用本地参与者,以分散的方式行事,同样适用于合作和竞争的环境。

由于集中式批评函数显式地使用了其他智能体的决策策略,我们还表明智能体可以在线学习其他智能体的近似模型,并在自己的策略学习过程中有效地使用它们。 我们还介绍了一种方法,通过训练具有集合策略的智能体来提高多智能体策略的稳定性,从而需要与各种协作者和竞争对手策略进行健壮的交互。 我们实证地展示了与现有的合作和竞争场景中的方法相比,我们的方法的成功,其中智能体群体能够发现复杂的物理和交际协调策略。

总结:

  • RL的大部分成功都是在单一的智能体领域,即在环境中建模或预测其他行为者的行为基本上是不必要的。
  • 考虑到多智能体的合作,成功地将RL扩展到具有多个智能体的环境中,对于构建能够与人类和彼此之间有效交互的人工智能系统至关重要。
  • 传统的强化学习方法,如Q-learning或policy gradient,不适合于多智能体环境; Q-learning受到环境内在的非平稳性的挑战,而策略梯度则受到随着智能体数量的增加而方差增加。或者,可以使用基于模型的策略优化,它可以通过反向传播学习最优策略,但这需要一个(可微的)世界动力学模型和关于智能体之间相互作用的假设。 从优化的角度来看,将这些方法应用于竞争环境也是具有挑战性的,对抗性训练方法的臭名昭著的不稳定性就是证明。
  • 本文算法的三个优越性: (1)导致只使用局部信息(即)的学习策略。 他们自己的观察)在执行时,(2)不假定环境动力学的可微模型或智能体之间沟通方法的任何特定结构, (3)不仅适用于合作互动,而且适用于涉及物理和交际行为的竞争或混合互动。

2.相关工作

在多智能体设置中学习的最简单的方法是使用独立的学习智能体。这是通过Q-learning来尝试的,但在实践中表现不佳。正如我们将展示的那样,独立学习策略梯度方法的表现也很差。其中一个问题是,每个智能体的策略在训练期间都发生了变化,导致了一个非平稳的环境,并防止了经验回放的幼稚应用。以前的工作曾试图通过向Q函数输入其他智能体的策略参数[37]来解决此问题,显式地将迭代索引添加到重放缓冲区,或使用重要性采样[9]深度Q-learning方法已经在[35]中研究,以训练竞争的乒乓智能体。

A. Tampuu, T. Matiisen, D. Kodelja, I. Kuzovkin, K. Korjus, J. Aru, J. Aru, and R. Vicente. Multiagent cooperation and competition with deep reinforcement learning. PloS one, 12(4):e0172395, 2017.

智能体之间交互的性质可以是合作的、竞争的,也可以是两者兼而有之,许多算法都是针对特定的交互性质而设计的。 大多数研究是合作,策略如乐观和滞后Q函数更新,其中其他智能体的行为是为了提高集体奖励。另一种方法是通过共享policy参数来间接达成合作,但这需要同质的智能体能力。这些算法通常不适用于竞争设置或混合设置。有关多智能体学习方法和应用程序的调查,请参阅[27,4]。

配合我们的工作&#x

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值