多智能体强化学习论文——COMA

存在的问题&研究动机&研究思路

  1. 遵循CTDE框架。是大规模多智能体训练的常见的范式,训练过程可以使用模拟器的全局状态信息,但是执行过程每个智能体只能依赖于自身的动作-观测值历史(常用循环神经网络来处理history)。
  2. 在协作的环境中,多智能体面临信誉分配的问题。联合动作产生的全局reward并不能让每个智能体很好的推断出自己对全局的贡献。
  3. 为了解决信誉分配问题,提出了反事实基准:固定其他智能体的动作,边缘化某个智能体的动作。
  4. agent之间传递梯度参数共享,是两种常用于发挥集中式critic优势的方法。
  5. 对于使用参数共享的IAC,因为critic训练使用的是全局reward,因此对每个智能体不能很好的推断出自己对于全局reward的贡献度,当智能体数量变多的时候,梯度变得尤为noisy。因此才提出了使用counterfactual baseline
  6. 反事实基准参考difference rewards:difference rewards的default action难以选择,并且需要额外的一套仿真,消耗过多计算资源。

创新点

  1. CTDE框架,actor使用参数共享。
  2. counterfactual baseline利用actor-critic框架的优势,计算出一个基准,从而解决了difference rewards存在的两个问题。在这里插入图片描述

算法框图

在这里插入图片描述

实验

  1. StarCraft: 离 散 动 作 空 间 : m o v e [ d i r e c t i o n ] , a t t a c k [ e n e m y   i d ] , s t o p , n o o p . 离散动作空间:move[direction], attack[enemy\ id], stop, noop.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值