[经典论文分享]CommNet 多智能体通讯网络模型

1 背景

多智能体系统(MAS)在解决复杂问题中具有重要地位,然而大多数的MAS内部agent的通讯都是通过定义实现的,即if-else的规则集,这样不仅对于不同的MAS要重新定义,而且也难以获得最优的通讯定义方式。利用“万物皆可one layer”的思想,Sainbayar Sukhbaatar提出了针对完全合作任务的CommNet网络,实现了通过训练的方式进行定义agent间的通讯过程。
论文原文:Learning Multiagent Communication with Backpropagation

2 模型结构

直接放论文原图:
在这里插入图片描述
最右边的图是模型的整体结构,名为 ϕ \phi ϕ,代表了整个MAS一次输入状态到获取动作的全过程,一次整个 ϕ \phi ϕ模型的前向传播类似于仿真中的一个time step,相当于强化学习中的一次根据状态决策动作的过程,也就是一次执行策略的过程。模型输入的是每个agent的状态,输出是每个智能体的动作action,和策略一样很好理解, J J J就是agent的个数。

整个 ϕ \phi ϕ模型包括了2个阶段的通讯过程(2是定义的参数,代表做一次决策MAS系统经历两步交互),每一个交互阶段的过程如中间图所示,其中 f i f^i fi代表 ϕ \phi ϕ中的第 i i i层模型,也是第 i i i 阶段的交互模型层。图中四个灰色方块(一个 f f f)代表了四个智能体。在 f i f^i fi f i + 1 f^{i+1} fi+1过程中, f i f^i fi的一部分(蓝色)直接输入给每个agent对应的 f i + 1 f^{i+1} fi+1,而另一部分(红色)则和其他agent的 f i f^i fi一起求和取平均后再无差别的送给每个 f i + 1 f^{i+1} fi+1

下面看每个小灰方块里的内容,对应最左边的图,实际上这就是一个两层的神经网络,输入是状态向量和交互向量的组合(红色和蓝色向量直接拼接起来),用于迭代每一次的交互过程,输出就是下一个交互交互阶段的状态向量。

这就是整个CommNet模型的结构,下面给出原文的模型描述:
在这里插入图片描述

3 实验

这篇文章除了给出的模型结构很有意思外,文章的实验也很充分。由于文章解决的问题是MAS的,因此首先肯定是需要实验环境,文章使用了三个仿真环境:
1、Traffic Junction:模型十字路口交通拥堵的,规则也不难
在这里插入图片描述
2、Combat Task:几V几对战的仿真环境,注意文章的网络是针对合作的,这个任务是竞争型的,因此作者只控制一方,让另一方完全"hard-code",即用规则集定义的。
在这里插入图片描述
3、bAbI task:一个类似于QA问答系统的强化学习任务环境,使用的CommNet进行的实验,同时对比了不同网络结构下CommNet的表现,毕竟CommNet只是一个架构,具体是用感知机还是RNN都可以。
在这里插入图片描述

4 特点总结

这篇文章写的很清楚,文章本身涉及的先验知识也不多,因此比较好懂,也没有繁杂的公式推导和证明。总结如下:
1)文章用提出的一个CommNet架构,解决了完全合作下MAS系统通讯难以提前定义的问题,使得agent间的通讯可以用黑盒向量来表示,提高了模型利用率与在解决复杂合作任务下的能力。
2)相比于经典的“集中训练分布执行”(CTDE)架构,模型本身更像是一个“集中训练集中执行”的架构。
3)文章说明目前解决MAS的问题还是需要一个中央控制器,相当于一个中央领导机构来对所有agent进行一个指导,这一点其实和我们人也是一样的,总有一个人需要知道全局信息来引领团队前进。
4)文章的Commnet网络可以被很大程度的进行改进,比如取平均完全可以被attention替代,训练过程也可以用REINFORCE算法进行替代。

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值