[经典论文分享]SchedNet:带宽限制下的多智能体通讯调度网络

1 背景

普遍认为,交流可以进一步提高学习者在尝试完成合作任务时的集体智力,许多论文已经研究了在强化学习中多个代理之间使用的通信协议和语言的学习。但是agent之间的交互是有成本的,不是随便就能交互的,并且存在带宽的限制。此外,agent之间的交互是通过某种一致的媒介进行的,意味着同一时间只会有几个智能体同时进行交互,因此需要对整个mas进行调度。Kim等人提出了一种SchedNet,用于解决在上述背景下的agent间的调度行为。
论文原文:LEARNING TO SCHEDULE COMMUNICATION IN MULTI-AGENT REINFORCEMENT LEARNING

2 模型结构

文章用的marl架构属于dec-pomdp,总体上是属于总体分布架构的。文章使用基于权重的通讯分配,有点像选课一样的感觉。此外,agent的交互是通过encoding的方式给变成向量的,不需要知道具体的什么信息,只需要知道向量即可。
在这里插入图片描述
如上图所示,一个agent三个网络ENC, AS, WG,三个网络分别针对每个agent参数共享,wg,enc,as是一起更新的,critic和schedule一起训练,WSA不是一个网络而是一个选择器,WG用DDPG训练,enc和as用A2C训练,Critic用的TD算法训练。
在这里插入图片描述
整个分布式的执行过程就是一套串行的流程:
每个代理I应该能够以分布式方式确定调度权重wi、编码消息mi和动作选择ui。这个过程必须基于它自己的观察,以及由它自己的动作选择器、消息编码器和权重生成器分别用参数 i as、 i enc和 i wg生成的权重。每个代理确定其调度权重后,由WSA对k cache代理进行调度,使得调度代理的编码消息广播给所有代理。最后,每个代理最终使用收到的消息选择一个操作。随着时间的推移,这个过程在不同的观察下依次重复。
算法描述如下:
在这里插入图片描述

3 实验

环境:PP和MADDPG的环境,一共两个环境。在两个环境的验证下,算法最好,并且的出来了一致的结论:更重要的agent被安排的更多,这就是人类的二八定律。
在这里插入图片描述
除了将算法结果进行对比外,作者还将agent间通讯的向量进行了压缩之类的操作,试图将通讯过程可视化并进行解释,然后发现agent之间的通讯确实可解释。

4 特点总结

文章没有什么公式推导之类的理论部分,只有架构设计和模型训练对比,因此比较好懂,总结:
1)提出的Schedule相比于其他通讯网络最大的好处其实就是多了一个调度器,使得agent间的通讯能够在有限制的前提下有更大的利用率。
2)agent的通讯网络解决的基本上都是合作问题,毕竟竞争问题是不需要信息交流的。
3)从本文的意图也可以看出,文章不是很好做实验对比验证,因此本文的实验其实也算得上是很不充分的,但是至少作者也是做了这些实验。因此作者在对比的时候又刻意避开了如MADDPG、QMIX这种真的state of art的MARL算法,而是选择了弟弟算法COMA、IQL做对比分析。
4)从算法和模型结构可以看出,这个模型实际上是很难收敛的,因为需要用三个不同的算法训练三个网络,可以看出作者的调参工作量还是很大的。
5)无论是模型结构还是本质算法,其实本文都不适合大规模agent下的交互,而且限制带宽这种行为在实际的应用中也会受限。其实这个算法重要的不是对MARL的算法提升有多大贡献,更多的是提供了一种agent交互可解释性的渠道和思路。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值