[经典论文分享]SchedNet：带宽限制下的多智能体通讯调度网络

最新推荐文章于 2025-05-07 13:15:00 发布

普通攻击往后拉

最新推荐文章于 2025-05-07 13:15:00 发布

阅读量1k

点赞数 1

分类专栏： RL-based文献阅读神经网络基础模型关键点强化学习导论

本文链接：https://blog.csdn.net/weixin_43483381/article/details/113031414

版权

神经网络基础模型关键点同时被 3 个专栏收录

20 篇文章

订阅专栏

强化学习导论

10 篇文章

订阅专栏

RL-based文献阅读

8 篇文章

订阅专栏

本文介绍了在多智能体强化学习中，SchedNet如何解决通信调度问题，强调了其在资源有限条件下提高效率和通讯向量解释性方面的独特性。通过DEC-POMDP架构和A2C/DDPG训练，模型结构复杂但直观。实验结果显示了调度策略符合二八定律。然而，模型在大规模和带宽限制下的应用局限性明显。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 背景

普遍认为，交流可以进一步提高学习者在尝试完成合作任务时的集体智力，许多论文已经研究了在强化学习中多个代理之间使用的通信协议和语言的学习。但是agent之间的交互是有成本的，不是随便就能交互的，并且存在带宽的限制。此外，agent之间的交互是通过某种一致的媒介进行的，意味着同一时间只会有几个智能体同时进行交互，因此需要对整个mas进行调度。Kim等人提出了一种SchedNet，用于解决在上述背景下的agent间的调度行为。
论文原文：LEARNING TO SCHEDULE COMMUNICATION IN MULTI-AGENT REINFORCEMENT LEARNING

2 模型结构

文章用的marl架构属于dec-pomdp，总体上是属于总体分布架构的。文章使用基于权重的通讯分配，有点像选课一样的感觉。此外，agent的交互是通过encoding的方式给变成向量的，不需要知道具体的什么信息，只需要知道向量即可。
在这里插入图片描述
如上图所示，一个agent三个网络ENC, AS, WG，三个网络分别针对每个agent参数共享，wg，enc，as是一起更新的，critic和schedule一起训练，WSA不是一个网络而是一个选择器，WG用DDPG训练，enc和as用A2C训练，Critic用的TD算法训练。
在这里插入图片描述
整个分布式的执行过程就是一套串行的流程：
每个代理I应该能够以分布式方式确定调度权重wi、编码消息mi和动作选择ui。这个过程必须基于它自己的观察，以及由它自己的动作选择器、消息编码器和权重生成器分别用参数 i as、 i enc和 i wg生成的权重。每个代理确定其调度权重后，由WSA对k cache代理进行调度，使得调度代理的编码消息广播给所有代理。最后，每个代理最终使用收到的消息选择一个操作。随着时间的推移，这个过程在不同的观察下依次重复。
算法描述如下：
在这里插入图片描述

3 实验

环境：PP和MADDPG的环境，一共两个环境。在两个环境的验证下，算法最好，并且的出来了一致的结论：更重要的agent被安排的更多，这就是人类的二八定律。
在这里插入图片描述
除了将算法结果进行对比外，作者还将agent间通讯的向量进行了压缩之类的操作，试图将通讯过程可视化并进行解释，然后发现agent之间的通讯确实可解释。

4 特点总结

文章没有什么公式推导之类的理论部分，只有架构设计和模型训练对比，因此比较好懂，总结：
1）提出的Schedule相比于其他通讯网络最大的好处其实就是多了一个调度器，使得agent间的通讯能够在有限制的前提下有更大的利用率。
2）agent的通讯网络解决的基本上都是合作问题，毕竟竞争问题是不需要信息交流的。
3）从本文的意图也可以看出，文章不是很好做实验对比验证，因此本文的实验其实也算得上是很不充分的，但是至少作者也是做了这些实验。因此作者在对比的时候又刻意避开了如MADDPG、QMIX这种真的state of art的MARL算法，而是选择了弟弟算法COMA、IQL做对比分析。
4）从算法和模型结构可以看出，这个模型实际上是很难收敛的，因为需要用三个不同的算法训练三个网络，可以看出作者的调参工作量还是很大的。
5）无论是模型结构还是本质算法，其实本文都不适合大规模agent下的交互，而且限制带宽这种行为在实际的应用中也会受限。其实这个算法重要的不是对MARL的算法提升有多大贡献，更多的是提供了一种agent交互可解释性的渠道和思路。