强化学习论文阅读——自动分组Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

这是一篇发表在NeurIPS2022的论文,文章提出了一种分组算法,旨在提高算法零样本泛化能力

1 论文背景

CTDE:集中训练分散执行,在训练阶段将所有智能体的Q值加到一起去训练,训练完了之后在执行阶段大家各自执行自己的,比较典型的有qmix算法

存在问题:泛化能力一般、协作能力一般(没有通信)

解决方案:
加入通信,结合现实生活中的现象:一个公司往往分成好几个部门,每个部门都有各自的领导,领导下发任务,该论文设计了一个自组织的分组强化学习算法(SOG),每个组内的成员只和指挥者通信,提高效率
设计了一个基于变分的通信器,提高通信效率

例子:
在这里插入图片描述
背景:A、B、C同时按下按钮才可以完成任务,按钮位置固定,按钮1和2相距10m,按钮3在按钮1和2中间;
观测:局部观测视野在6m,也就是说A观测不到B按;
限制:显然CTDE框架下Qmix没法解决这个问题;
引出:设计了一种基于通信的CTDE方法解决上述问题

2 论文方法

在这里插入图片描述

  • 选出指挥者,指挥者向周围的智能体发出组队邀请;
  • 其余智能体选取自己想要追随的指挥者,并打包发送信息给自己的指挥者;
  • 队伍成立,指挥者给小组成员发送处理过的信息
    指挥者选取方法:
  • 随机CE:每个agent以一定概率p当指挥官
  • DPP-based CE:希望最大化指挥官之间的多样性,保证选取出来指挥官相关性小
  • PG-based CE:基于策略梯度,将指挥官的选择也视为一个强化学习任务。输入是全局状态,输出是每个agent成为指挥官的概率,用PG做梯度下降
    消息传递总体规则:
  • 分组形成后,指挥官接受组内的消息,将处理后的信息发送回分组内的成员
  • 指挥官采用累加求平均的非参数化消息混合器处理接受到的信息
    每个智能体只需要与组内的指挥官通信
    在这里插入图片描述
3 实验效果

在这里插入图片描述
在这里插入图片描述

  • 22
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值