Learning Transferable Cooperative Behavior in Multi-Agent Teams 笔记

本文提出了一种新的多智能体协作方法,通过构建Agent-Entity图,使智能体能根据环境结构进行有效通信。在部分观测和有限通信的条件下,智能体学习到的策略具有良好的迁移性和零镜头泛化能力,适用于各种协作任务,如收敛控制、队形控制和线控制。实验表明,这种方法能够改善多智能体系统的协作效率和泛化性能。
摘要由CSDN通过智能技术生成

前言

最近实在是没怎么看论文,这篇论文的方法也算是比较新,方向我觉得是未来比较火的一个,趁现在看看能不能做点工作。毕竟图网络比较火,跟它结合也能做点东西。
尽管mutil-agent interactions可以被很自然的建模为一个图,但环境通常都被当做一个黑盒。本文创建一个共享的agent-entity图,agent和环境实体构成顶点,边存在于互相通信的顶点之间。这个框架与系统中出现的agent和entity的数量无关,与排列无关。用于解决完全协作问题。第一个使用分布式框架解决多智能体迁移和协作行为的课程学习问题。

背景

协作多智能体系统在多种多样的领域都有应用,比如电信、资源管理、机器人学等,然而这种系统的复杂性使得设计启发性的行为策略非常难。尽管MARL使得智能体可以学习最大化某个团队值函数的协作行为,但它也存在很多显著的挑战,包括环境的不稳定性、智能体联合动作和状态空间的组合增加和多智能体信用分配问题。实际上,大多数的现实环境由于范围有限的和/或有噪声的感知器,都有局部可观察和有限的通信,这就意味着智能体必须基于局部观察和有限的通信来学习协作地行动。之前将MAS建模为图的工作将环境当做黑盒,智能体接收单个向量或所有堆在一起的象征的形式的关于其他智能体与环境中entity的信息,这显而易见对环境呈现的本质的结构利用不足。

Method

在这里插入图片描述

Agent-Entity Graph

环境通常可以被描述为一组具有特定结构的不同entity。定义图 G : = ( V , E ) \mathcal{G:=(V,E)} G:=(V,E),并且每个 n ∈ V n \in \mathcal{V} nV 要么是智能体,要么是环境entity。两个顶点之间的 e ∈ E e \in \mathcal{E} eE 代表两个顶点存在通信。在这里只考虑静态entity,即在同一个episode里位置不变。假定在每个episode开始时,agent可到达所有entity的位置。
agent之间的通信有两个变体:
受限的通信(RC): 只有距离小于一个预定义值时才能通信。
不受限通信(UC): 所有的agent都能相互通信, G \mathcal{G} G是全连接图
MAS建模成图提供了很强的归纳偏置,实际中越近的agent彼此的影响越大,这是图结构本身就具有这种信息,大大有利于学习。

Learning to communicate

每个agent i ∈ V i \in \mathcal{V} iV只能观察它的局部状态 X i X^i Xi,本文的状态包含其速度与位置。通过使用可学习的可微编码网络 f a f_a fa构建状态编码 U i = F a ( X i ) U^i=F_a(X^i) Ui=Fa(Xi)
首先对于每个entity l ∈ V l \in \mathcal{V} lV 使用 f e

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值