[经典论文分享]CommNet 多智能体通讯网络模型

最新推荐文章于 2025-04-06 10:45:00 发布

普通攻击往后拉

最新推荐文章于 2025-04-06 10:45:00 发布

阅读量3.7k

点赞数 6

分类专栏：强化学习导论 RL-based文献阅读

本文链接：https://blog.csdn.net/weixin_43483381/article/details/112800873

版权

强化学习导论同时被 2 个专栏收录

10 篇文章

订阅专栏

RL-based文献阅读

8 篇文章

订阅专栏

1 背景

多智能体系统（MAS）在解决复杂问题中具有重要地位，然而大多数的MAS内部agent的通讯都是通过定义实现的，即if-else的规则集，这样不仅对于不同的MAS要重新定义，而且也难以获得最优的通讯定义方式。利用“万物皆可one layer”的思想，Sainbayar Sukhbaatar提出了针对完全合作任务的CommNet网络，实现了通过训练的方式进行定义agent间的通讯过程。
论文原文：Learning Multiagent Communication with Backpropagation

2 模型结构

直接放论文原图：
在这里插入图片描述
最右边的图是模型的整体结构，名为 $\phi$ ，代表了整个MAS一次输入状态到获取动作的全过程，一次整个 $\phi$ 模型的前向传播类似于仿真中的一个time step，相当于强化学习中的一次根据状态决策动作的过程，也就是一次执行策略的过程。模型输入的是每个agent的状态，输出是每个智能体的动作action，和策略一样很好理解， $J$ 就是agent的个数。

整个 $\phi$ 模型包括了2个阶段的通讯过程（2是定义的参数，代表做一次决策MAS系统经历两步交互），每一个交互阶段的过程如中间图所示，其中 $f^i$ 代表 $\phi$ 中的第 $i$ 层模型，也是第 $i$ 阶段的交互模型层。图中四个灰色方块(一个 $f$ )代表了四个智能体。在 $f^i$ 到 $f^{i+1}$ 过程中， $f^i$ 的一部分（蓝色）直接输入给每个agent对应的 $f^{i+1}$ ，而另一部分（红色）则和其他agent的 $f^i$ 一起求和取平均后再无差别的送给每个 $f^{i+1}$ 。

下面看每个小灰方块里的内容，对应最左边的图，实际上这就是一个两层的神经网络，输入是状态向量和交互向量的组合（红色和蓝色向量直接拼接起来），用于迭代每一次的交互过程，输出就是下一个交互交互阶段的状态向量。

这就是整个CommNet模型的结构，下面给出原文的模型描述:
在这里插入图片描述

3 实验

这篇文章除了给出的模型结构很有意思外，文章的实验也很充分。由于文章解决的问题是MAS的，因此首先肯定是需要实验环境，文章使用了三个仿真环境：
1、Traffic Junction：模型十字路口交通拥堵的，规则也不难
在这里插入图片描述
2、Combat Task：几V几对战的仿真环境，注意文章的网络是针对合作的，这个任务是竞争型的，因此作者只控制一方，让另一方完全"hard-code"，即用规则集定义的。

3、bAbI task:一个类似于QA问答系统的强化学习任务环境，使用的CommNet进行的实验，同时对比了不同网络结构下CommNet的表现，毕竟CommNet只是一个架构，具体是用感知机还是RNN都可以。
在这里插入图片描述

4 特点总结

这篇文章写的很清楚，文章本身涉及的先验知识也不多，因此比较好懂，也没有繁杂的公式推导和证明。总结如下：
1）文章用提出的一个CommNet架构，解决了完全合作下MAS系统通讯难以提前定义的问题，使得agent间的通讯可以用黑盒向量来表示，提高了模型利用率与在解决复杂合作任务下的能力。
2）相比于经典的“集中训练分布执行”（CTDE）架构，模型本身更像是一个“集中训练集中执行”的架构。
3）文章说明目前解决MAS的问题还是需要一个中央控制器，相当于一个中央领导机构来对所有agent进行一个指导，这一点其实和我们人也是一样的，总有一个人需要知道全局信息来引领团队前进。
4）文章的Commnet网络可以被很大程度的进行改进，比如取平均完全可以被attention替代，训练过程也可以用REINFORCE算法进行替代。