存在的问题&研究动机&研究思路
- 遵循CTDE框架。是大规模多智能体训练的常见的范式,训练过程可以使用模拟器的全局状态信息,但是执行过程每个智能体只能依赖于自身的动作-观测值历史(常用循环神经网络来处理history)。
- 在协作的环境中,多智能体面临信誉分配的问题。联合动作产生的全局reward并不能让每个智能体很好的推断出自己对全局的贡献。
- 为了解决信誉分配问题,提出了反事实基准:固定其他智能体的动作,边缘化某个智能体的动作。
- 在agent之间传递梯度和参数共享,是两种常用于发挥集中式critic优势的方法。
- 对于使用参数共享的IAC,因为critic训练使用的是全局reward,因此对每个智能体不能很好的推断出自己对于全局reward的贡献度,当智能体数量变多的时候,梯度变得尤为noisy。因此才提出了使用counterfactual baseline。
- 反事实基准参考difference rewards:difference rewards的default action难以选择,并且需要额外的一套仿真,消耗过多计算资源。
创新点
- CTDE框架,actor使用参数共享。
- counterfactual baseline利用actor-critic框架的优势,计算出一个基准,从而解决了difference rewards存在的两个问题。
算法框图
实验
-
StarCraft: 离 散 动 作 空 间 : m o v e [ d i r e c t i o n ] , a t t a c k [ e n e m y i d ] , s t o p , n o o p . 离散动作空间:move[direction], attack[enemy\ id], stop, noop. 离散动作空间:move[direction],attack[enemy id],stop,noop.
局 部 观 测 信 息 : d i s t a n c e , r e l a t i v e x , r e l a t i v e y , u n i t t y p e , s h i e l d . 局部观测信息:distance, relative\ x, relative\ y, unit\ type , shield. 局部观测信息:distance,relative x,relative y,unit type,shield.
全 局 状 态 信 息 : a b s o l u t e x , a b s o l u t e y , u n i t t y p e , s h i e l d , h e a l t h , p o i n t s , c o o l d o w n . 全局状态信息:absolute\ x, absolute\ y, unit\ type , shield,health, points, cooldown. 全局状态信息:absolute x,absolute y,unit type,shield,health,points,cooldown. -
消融实验:
- 在两个IAC上面,分别学习Q和V,即IAC-Q和IAC-V。比较学习Q和V的区别。
- 测试学习Q的意义,因此有central-V学习V(s),用TD error进行策略梯度的更新。
- 测试反事实基准的意义,central-QV学习Q和V,用V替代counterfactual baseline,即用Q-V作为优势函数,用TD( λ \lambda λ)训练。