1.理论
值分解方法是一种主流的多智能体强化学习解决方案。
它使用集中式训练、分布式执行(CTDE)架构(在训练时能得到全局信息,在执行时只需要局部观测),解决部分可观测问题;使用局部动作值函数以一定规则约束(一般为IGM)来拟合全局动作值函数,解决信度分配问题。
2.常见算法
①VDN
直接把局部值函数直接相加得到全局值函数
[1706.05296] Value-Decomposition Networks For Cooperative Multi-Agent Learning (arxiv.org)
②QMIX