多智能体语言

本文研究了多智能体如何通过强化学习在合作任务中自发形成具有组合性的语言。在无监督的环境中,智能体通过抽象离散符号流进行沟通,形成具有词汇和句法结构的合成语言。当语言交流不可用时,智能体会使用非言语沟通,如指向和引领。实验表明,环境变化和词汇大小惩罚促使了组合语言结构的形成。
摘要由CSDN通过智能技术生成

hello,这是鑫鑫鑫的论文分享站,今天分享的文章是Emergence of Grounded Compositional
Language in Multi-Agent Populations,这是一篇关于多智能体生成语言,发生交互的论文,我们一起看看吧~

摘要:

通过在大型语料库中构建统计学模式,机器学习在包括机器翻译、问答系统(questionanswering)及情感分析(sentiment analysis)的自然语言处理方面已取得了巨大成功。然而,对于和人交互的智能体(agents)来说,仅仅构建统计学模式还远远不够。在本论文中,我们研究了基础合成语言(grounded compositional language)能否以及如何在多智能体中作为完成目标的一个手段而出现。为此,我们提出了一种可以生成基础合成语言的多智能体学习环境和方法。这种语言表征为智能体随时间而做出的抽象离散符号流(abstractdiscrete symbols),但其还是具有定义词汇和句法的一致结构(coherent structure)。我们也发现,当语言通信不可用时,指向(pointing)和引领(guiding)等非言语(non-verbal)通信方式也就出现了。

1.引言

开发能够沟通和灵活使用语言的智能体是人工智能领域面临的长期挑战之一。 智能体如果要成功地作为一个集体进行协调,就需要发展沟通。 此外,智能体如果要与人类互动和有效协作,或者做出人类可以解释的决定,就需要一些语言能力。 如果这种能力是人工产生的,它也可以提供关于人类语言和认知发展问题的重要见解。

但是,如果我们希望从第一原则形成沟通,那么它必须是出于必要而形成的。 学习从人类语言的例子中合理地模仿语言的方法虽然非常有用,但并不能了解语言存在的原因。 这种有监督的方法可以捕捉语言中的结构和统计关系,但它们不能捕捉其功能方面,或者语言的发生是为了人类之间的成功协调。 根据语言的合理性来评价这种模仿方法的成功与否,也带来了歧义和人类参与要求的挑战

最近,人们对语言使用的语用方面的兴趣再次高涨,这也是我们工作的重点。我们采用一种观点,当智能体可以使用语言(如非语言交流或物理行为)来实现环境目标时,我们拥有对语言的理解。这导致了可以精确测量且没有人类参与的评估标准。

在本文中,我们提出了一个物理模拟的多智能体学习环境和学习方法,带来了一种基本的组合语言的出现。 这种语言被表示为智能体随着时间的推移而发出的抽象离散符号流,但仍然有一个连贯的结构,具有定义的词汇表和语法。 智能体发出通信符号,同时在物理环境中执行操作,以合作地完成由所有智能体之间共享的联合奖励函数定义的目标。 没有预先设计的意义与说出的符号-智能体形成与任务和环境相关的概念,并分配任意的符号来传达它们

同样,也没有明确的语言使用目标,如正确的话语,也没有指定明确的角色智能体,如说话者或倾听者,或像传统语言游戏中那样明确的转唱对话结构。 在一个人口中,可能有任意数量的智能体同时进行通信,而其中的一部分是学习引用特定的智能体。 一个粒子群位于一个连续的二维环境中,具有颜色和形状等特性。 人口的目标是以非语言目标为基础的,例如搬到一个地点,语言是由于需要在这些目标上进行协调。 我们不依赖任何监督,如人类演化或文本语料库

与最近的工作类似,我们将发现我们的智能体的动作和通信协议作为一个强化学习问题。 智能体根据为所有智能体实例化的相同策略执行物理操作和通信话语,并完全确定操作和通信协议。 这些策略基于神经网络模型,其结构由动态实体递归模块组成。 这允许使用可变数量的智能体和通信字符串进行分散执行。 所有智能体和环境的联合动力学,包括离散通信流是完全可微的,智能体的策略是通过时间反向传播训练的端到端。

所形成的语言表现出可解释的组合结构,通常将符号分别指定为环境标志、动作动词和智能体。 然而,环境的变化导致了一些专门语言,省略了从上下文中清楚的单词。 例如,当只有一种类型的行动或一个里程碑要去,这些概念的单词在语言中不形成。 物理环境的考虑对语言结构也有影响。 例如,表示GO动作的符号通常首先发出,因为倾听器甚至可以在听到目标之前就开始移动。 只有当语言和身体行为被共同对待,而不是孤立地对待时,这种效应才会产生。

物理环境的存在还允许除了语言使用来实现目标之外的替代策略。视觉感觉模式为交流提供了另一种交流媒介,我们观察到非语言交流的出现,如当语言交流不可用时的指向和指导。即使是非语言交流也不可用,也可以采用直接推动等策略来成功完成这项任务。对我们来说,建立一个具有语言使用的不同能力的环境。

通过构成性,我们指的是多个词的组合来创造意义,而不是整体语言,它们对每一个可能的意义都有一个独特的词。 我们的工作提供了关于为什么出现这种组成结构的见解。 在某种程度上,我们发现当我们明确地鼓励积极的词汇大小通过软惩罚来变小时,它就会出现。 这与进化语言学中的分析是一致的,后者发现只有当要表达的概念的数量大于智能体符号词汇容量的一个因素时,才能出现组合。 导致

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值