多智能体强化学习论文——MAAC

存在的问题&研究动机&研究思路

  1. 多智能体值函数逼近,本质上来说是一个多任务回归问题。
  2. MAAC从当前策略中采样动作值,而MADDPG从replay buffer中抽样更新(容易造成overgeneralization)。
  3. 通过注意力计算的模型,可以使得每个智能体不需要相同的动作空间,也不需要全局的reward,并且动态的关注其他智能体( α i \alpha_i αi动态变化)。这一切可以通过一个智能体 i i i的编码 e i e_i ei和其他智能体对智能体 i i i的影响 x i x_i xi,concatenate。

创新点

  1. 遵循CTDE框架,并且通过共享参数的注意力机制来计算critic。(对比ATOC,在策略网络中共享信息,即集中式的策略网络和分散式的critic网络,与MAAC是互补的工作方式。)
  2. 输入空间随智能体数量的增加而线性增长,而不像MADDPG那样是呈二次增长的。
  3. 适用于任何奖励设置形式:可适用于只有共同reward的协作环境,也可以用于个体有独立奖励的环境。(协作、竞争、混合式环境皆可。)
  4. 为了鼓励exploration和避免收敛到非最优的确定性策略,将Actor-Critic替换为Soft Actor-Critic(SAC),损失函数中加入熵。

算法框图

在这里插入图片描述

实验

  1. 实验平台:Cooperative Treasure Collection和Rover-Tower。
  2. 对比算法:
    1. DDPG和MADDPG经过Gumbel-Softmax处理为discrete后作为baselines。
    2. MADDPG和COMA正常版和SAC版。
    3. 消融实验:MAAC的注意力系数都设置为1/N-1.
  3. 证明了MAAC算法通过加入attention,使得算法有选择性的重点关注部分智能体,相比于MADDPG+SAC等baseline有较强的scalability
  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值