前言
最近实在是没怎么看论文,这篇论文的方法也算是比较新,方向我觉得是未来比较火的一个,趁现在看看能不能做点工作。毕竟图网络比较火,跟它结合也能做点东西。
尽管mutil-agent interactions可以被很自然的建模为一个图,但环境通常都被当做一个黑盒。本文创建一个共享的agent-entity图,agent和环境实体构成顶点,边存在于互相通信的顶点之间。这个框架与系统中出现的agent和entity的数量无关,与排列无关。用于解决完全协作问题。第一个使用分布式框架解决多智能体迁移和协作行为的课程学习问题。
背景
协作多智能体系统在多种多样的领域都有应用,比如电信、资源管理、机器人学等,然而这种系统的复杂性使得设计启发性的行为策略非常难。尽管MARL使得智能体可以学习最大化某个团队值函数的协作行为,但它也存在很多显著的挑战,包括环境的不稳定性、智能体联合动作和状态空间的组合增加和多智能体信用分配问题。实际上,大多数的现实环境由于范围有限的和/或有噪声的感知器,都有局部可观察和有限的通信,这就意味着智能体必须基于局部观察和有限的通信来学习协作地行动。之前将MAS建模为图的工作将环境当做黑盒,智能体接收单个向量或所有堆在一起的象征的形式的关于其他智能体与环境中entity的信息,这显而易见对环境呈现的本质的结构利用不足。
Method
Agent-Entity Graph
环境通常可以被描述为一组具有特定结构的不同entity。定义图 G : = ( V , E ) \mathcal{G:=(V,E)} G:=(V,E),并且每个 n ∈ V n \in \mathcal{V} n∈V 要么是智能体,要么是环境entity。两个顶点之间的 e ∈ E e \in \mathcal{E} e∈E 代表两个顶点存在通信。在这里只考虑静态entity,即在同一个episode里位置不变。假定在每个episode开始时,agent可到达所有entity的位置。
agent之间的通信有两个变体:
受限的通信(RC): 只有距离小于一个预定义值时才能通信。
不受限通信(UC): 所有的agent都能相互通信, G \mathcal{G} G是全连接图
MAS建模成图提供了很强的归纳偏置,实际中越近的agent彼此的影响越大,这是图结构本身就具有这种信息,大大有利于学习。
Learning to communicate
每个agent i ∈ V i \in \mathcal{V} i∈V只能观察它的局部状态 X i X^i Xi,本文的状态包含其速度与位置。通过使用可学习的可微编码网络 f a f_a fa构建状态编码 U i = F a ( X i ) U^i=F_a(X^i) Ui=Fa(Xi)。
首先对于每个entity l ∈ V l \in \mathcal{V} l∈V 使用 f e