多智能体语言2

本文探讨了多智能体环境中学习通信协议的重要性,提出了两种方法——强化的智能体间学习(RIAL)和可微的智能体间学习(DIAL)。通过深度Q-learning和递归神经网络,智能体在部分可观测性和有限通信信道的条件下,学习到端到端的通信协议。实验结果表明,这两种方法不仅解决了复杂的多智能体任务,还发现了高效的通信协议,强调了深度学习在学习通信协议中的潜力。
摘要由CSDN通过智能技术生成

hello,这是鑫鑫鑫的论文分享站,今天分享的文章是Learning to Communicate with
Deep Multi-Agent Reinforcement Learning这,是一篇关于多智能体语言的论文,我们一起看看吧~

摘要:
我们考虑多个智能体在环境中感知和行为的问题,目的是最大限度地利用它们的共享效用。 在这些环境中,智能体必须学习通信协议,以便共享解决任务所需的信息。 通过拥抱深层神经网络,我们能够演示在复杂环境中由通信谜语和具有部分可观测性的多智能体计算机视觉问题启发的协议的端到端学习。 在这些领域,我们提出了两种学习方法:增强的智能体学习(RIAL)和可微的智能体学习(DIAL)。 前者使用深度Q-learning ,而后者利用这样一个事实,即在学习过程中,智能体可以通过(噪声)通信通道反向传播错误导数 。 因此,这种方法使用集中学习,但分散执行。 我们的实验为研究通信协议的学习引入了新的环境,并提出了一套对这些领域的成功至关重要的工程创新。

1,引言

语言和交流是如何在智能体中出现的,一直是一个激烈争论的话题。 许多未解决的问题包括:语言为什么使用离散结构? 环境起什么作用? 什么是先天的,什么是后天的? 等等。 关于这些问题的一些辩论是如此激烈,以至于1866年法国科学院禁止关于人类语言起源的出版物。 近年来机器学习的迅速进展,特别是深入学习,为这场辩论开辟了一个新的视角。 智能体如何使用机器学习来自动发现他们需要的通信协议来协调他们的行为? 什么,如果有什么,深度学习能提供给这样的智能体吗? 我们可以从学习交流的智能体的成功或失败中收集到哪些见解?

在本文中,我们采取了回答这些问题的第一步。我们的方法是编程性的:首先,我们提出了一组需要通信的多智能体基础任务;然后,我们为这些任务制定了几种学习算法;最后,我们分析这些算法如何学习或无法学习智能体的通信协议。

我们考虑的任务是完全合作的、部分可观察的、有序的多智能体决策问题。 所有的智能体都有一个目标,那就是最大化相同的折扣奖励。 虽然没有智能体可以观察到潜在的马尔可夫状态,但每个智能体都会收到与该状态相关的私有观察。 除了采取影响环境的行动外,每个智能体还可以通过离散的有限带宽信道与其他智能体通信。 由于部分可观测性和有限的信道容量,智能体必须发现一个通信协议,使他们能够协调他们的行为和解决任务。

我们专注于集中学习但分散执行的环境。 换句话说,在学习期间,智能体之间的通信不受限制,这是由集中算法执行的;然而,在执行学习策略期间,智能体只能通过有限带宽信道进行通信。 虽然不是所有的现实世界问题都可以这样解决,但很多人可以这样解决,例如,当在模拟器上训练一组机器人时。 集中规划和分散执行也是多智能体规划[1,2]的标准范式。

为了解决这个设置,我们制定了两种方法。第一个,强化的智能体间学习(RIAL),使用带有递归网络的deep Q-learning[3]来解决部分可观察性。在这种方法的一种变体中,我们称之为独立的Q-learning,智能体各自学习自己的网络参数,并将其他智能体视为环境的一部分。另一种变体训练一个网络,其参数由所有智能体共享。执行仍然是分散的,此时他们会收到不同的观察结果,从而导致不同的行为。

第二种方法,可微分的智能体间学习(DIAL),是基于这样的见解,即集中学习提供了更多的机会来提高学习能力,而不仅仅是参数共享。特别是,虽然RIAL可以在智能体中进行端到端训练,但它不能跨智能体进行端到端训练,也就是说,智能体之间不传递梯度。第二种方法允许在集中学习期间在智能体之间传递,从而将通信动作视为智能体之间的瓶颈连接。因此,梯度可以通过通信通道推送,产生一个可以端到端甚至跨智能体进行端到端训练的系统。在分散执行期间,实值消息被离散,并映射到任务允许的离散通信操作集。因为DIAL将梯度从一个智能体传递到另一个智能体,所以这是一种内在的深度学习方法

基于MNIST数据集和一个众所周知的谜语,对两个基本任务进行了实验,结果表明,这些方法不仅可以解决这些任务,而且发现优雅的通信协议。 据我们所知,这是首次在涉及序列和原始图像的复杂环境中,通过深度神经网络进行可微通信或增强学习,成功地学习了通信协议。 结果还表明,通过更好地利用集中学习的机会,深度学习是学习这种协议的独特的强大工具。 最后,本研究提出了几个工程创新,这些创新对于学习我们提出的基准中的通信协议至关重要。

2.相关工作

传播研究涉及许多领域,例如。 语言学,心理学,进化论和人工智能。 在人工智能中,它沿着几个轴分裂:(A)预定义或学习的通信协议;(B)规划或学习方法;©进化或RL;(D)合作或竞争设置。

考虑到我们论文的主题,我们将重点放在处理通信协议的合作学习的相关工作上 。 在涉及通信的多智能体RL的大量工作中,例如[4-7],只有少数属于这一类。 大多数人假设一个预定义的通信协议,而不是试图学习协议。 一个例外是Kasai等人的工作。 [7],其中Q学习智能体必须学习消息的内容,以解决与通信的捕食者-猎物任务。 [8]给出了多智能体任务中开放式通信学习的另一个例子。 在这里,进化方法被用来学习在类似的捕食者-猎物任务上评估的协议。 他们的方法使用了一个健身功能,这是精心设计的,以加速学习。 一般来说,启发式和手工规则在这一研究领域得到了广泛的应用。此外,典型的任务一定很小,因此可以应用全局优化方法,如进化算法。本文所主张的使用深度表示和基于梯度的优化是一个重要的变形,对可伸缩性和进一步的进展至关重要。在[9]中也提供了一个类似的理由,这

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值