存在的问题&研究动机&研究思路
- 遵循CTDE框架。是大规模多智能体训练的常见的范式,训练过程可以使用模拟器的全局状态信息,但是执行过程每个智能体只能依赖于自身的动作-观测值历史(常用循环神经网络来处理history)。
- 在协作的环境中,多智能体面临信誉分配的问题。联合动作产生的全局reward并不能让每个智能体很好的推断出自己对全局的贡献。
- 为了解决信誉分配问题,提出了反事实基准:固定其他智能体的动作,边缘化某个智能体的动作。
- 在agent之间传递梯度和参数共享,是两种常用于发挥集中式critic优势的方法。
- 对于使用参数共享的IAC,因为critic训练使用的是全局reward,因此对每个智能体不能很好的推断出自己对于全局reward的贡献度,当智能体数量变多的时候,梯度变得尤为noisy。因此才提出了使用counterfactual baseline。
- 反事实基准参考difference rewards:difference rewards的default action难以选择,并且需要额外的一套仿真,消耗过多计算资源。
创新点
- CTDE框架,actor使用参数共享。
- counterfactual baseline利用actor-critic框架的优势,计算出一个基准,从而解决了difference rewards存在的两个问题。
算法框图
实验
-
StarCraft: 离 散 动 作 空 间 : m o v e [ d i r e c t i o n ] , a t t a c k [ e n e m y i d ] , s t o p , n o o p . 离散动作空间:move[direction], attack[enemy\ id], stop, noop. 离散动作空