Learning to Communicate with Deep Multi-Agent Reinforcement Learning笔记

文章探讨了在多智能体环境中,通过深度学习方法学习通信协议以解决强化学习问题。提出了RIAL和DIAL两种算法,其中DIAL允许端到端训练,通过通信信道传递梯度,提高学习效率。
摘要由CSDN通过智能技术生成

1. 论文讲了什么/主要贡献是什么

文章提出了通过深度学习的方法,对代理间的通信协议进行学习的思想。从而通过代理之间的通信解决多代理强化学习问题。

2. 论文摘要:

We consider the problem of multiple agents sensing and acting in environments with the goal of maximising their shared utility. In these environments, agents must learn communication protocols in order to share information that is needed to solve the tasks. By embracing deep neural networks, we are able to demonstrate endto-end learning of protocols in complex environments inspired by communication riddles and multi-agent computer vision problems with partial observability. We propose two approaches for learning in these domains: Reinforced Inter-Agent Learning (RIAL) and Differentiable Inter-Agent Learning (DIAL). The former uses deep Q-learning, while the latter exploits the fact that, during learning, agents can backpropagate error derivatives through (noisy) communication channels. Hence, this approach uses centralised learning but decentralised execution. Our experiments introduce new environments for studying the learning of communication protocols and present a set of engineering innovations that are essential for success in these domains.

我们考虑了在环境中以最大化其共享效用为目标的多个代理感知和操作的问题。在这些环境中,代理必须学习通信协议,以便共享解决任务所需的信息。通过采用深度神经网络,我们能够在复杂的环境中演示协议的端到端学习,这是受到了通信谜题和具有部分可观测性的多智能体计算机视觉问题的启发。在这些领域中,我们提出了两种学习方法强化代理间学习(Reinforced Inter-Agent Learning, RIAL)和可微代理间学习(Differentiable Inter-Agent Learning, DIAL)。前者使用深度Q-learning,而后者利用了在学习过程中代理可以通过(有噪声的)通信信道反向传播错误导数的特点。因此,这个方法使用了集中学习分散执行的方式。我们的经验介绍了研究通信协议学习的新环境,并提出了一套在这些领域取得成功所必需的工程创新。

3. 论文主要观点:

3.1 背景:

语言和交流是如何在智能主体之间产生的一直是激烈争论的话题。许多未解决的问题包括:为什么语言使用离散结构?环境扮演了什么角色?什么是天生的,什么是后天习得的?等等。近年来机器学习,尤其是深度学习的快速发展,为这场辩论打开了一扇新的大门。代理如何使用机器学习来自动发现他们需要的通信协议来协调他们的行为?如果有的话,深度学习能为这些代理人提供什么?我们能从学习交流的个体的成功或失败中得到什么启示?

这篇文章就是对这类问题的一步探索 。

文章中考虑的任务是完全协作的、部分可观察的、连续的多智能体决策问题。所有代理的共同目标是最大化折扣奖励和。因为代理无法观测到潜在的马尔科夫状态,代理能观测到与相应状态相关的局部观测。除了执行动作外,每个代理还可以通过离散的有限带宽信道与其它代理通信。由于局部可观测性和有限的信道容量,代理必须发现一个通信协议,使它们能够协调自己的行为并解决任务。

本文采取的集中学习、分散执行的框架。代理在学习期间能够进行无限制的交流,在执行阶段只能通过有限带宽的信道通信。

文章提出了两种算法来解决这个问题。第一种算法是强化代理间学习(Reinforced Inter-Agent Learning, RIAL),使用带有循环网络的DQN来解决部分可观测的问题。这种方法的一个变体被成为独立Q-learning(independent Q-learning),代理独自学习自己的网络参数,将其它代理视为环境。另一个变体是训练一个所有代理都共享参数的网络。分散执行,每个代理会因接收到不同的观测而执行不同的动作。

第二种方法是可微代理间学习(Differentiable Inter-Agent Learning, DIAL),是基于集中学习相比于仅仅的参数共享能够提供更多的机会来提升学习效果。特别是,在RIAL中代理内部是端到端可训练的,但代理之间是不可训练的,例如没有代理之间传递的梯度。第二种方法允许代理之间在集中训练期间传递实数值,因此将通信视为代理间的瓶颈连接。梯度可以通过通信信道传播,这使得整个系统是端到端可训练的。在分散执行期间,实值信息被离散化并映射为任务允许的离散的通信行为集。因为DIAL在代理之间传递梯度,这是一个内在的深度学习方法。

3.2 问题:

在多代理部分可观测环境中,需要代理之间进行通信。在本文的设置中,在每一时间步内,代理根据观测,选择环境动作 u t a u_t^a uta——对环境有直接的影响,并且选择通信动作 m t a m_t^a mta——被其它代理观测且不会对环境造成直接影响。代理之间需要共同认知到一个协议用于处理任务。

由于协议是从动作观测历史到消息序列的映射,所以协议的空间是极高维的。特别是,由于需要代理来协调消息的发送和解释,所以探索这个协议空间的难度就更大了。例如,如果一个代理向另一个代理发送有用的消息,那么只有当接收代理正确地解释并对该消息采取行动时,它才会收到正向的奖励。如果没有收到正向奖励,那么代理将会被阻止再次发送这条消息。因此,正向的回报是稀疏的,只有在发送和解释适当协调的情况下才会出现,这是很难通过随机探索发现的。

3.3 方法:

在这篇文章中提出了两种学习通信协议的方法。

强化代理间学习(Reinforced Inter-Agent Learning, RIAL)

通过DRQN输出环境动作和通信动作, Q a ( o t a , m t − 1 a ′ , h t − 1 a , u a ) Q^{a}\left(o_{t}^{a}, m_{t-1}^{a^{\prime}}, h_{t-1}^{a}, u^{a}\right) Qa(ota,mt1a,ht1a,ua)为Q函数,其中

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值