文章目录
论文:MAVEN: Multi-Agent Variational Exploration
存在的问题&研究动机&研究思路
- Qmix的monotonic约束,导致算法得到局部最优解。文章给出了证明。
- 在单体强化学习任务中,可以通过动态调整 ϵ \epsilon ϵ的大小使探索更充分,然而多体中无法使用。
- MAVEN为了解决探索问题,引入了分层控制的隐空间。
创新点
- 通过隐策略产生隐空间变量 z z z,在一个episode固定相关参数 θ \theta θ, ϕ \phi ϕ, ψ \psi ψ,产生 W z , a W_{z,a} Wz,a来增加每个智能体的探索。属于分层的控制。
- 在每一个时间步t,最大化轨迹 τ \pmb\tau τ