一、价值分解在多智能体强化学习中的背景 在多智能体强化学习(MARL)中,尤其在合作型场景下,往往会有一个全局奖励(global reward)需要由多个智能体共同努力才能最大化。传统单智能体强化学习方法若直接应用,会遇到以下问题: 信用分配 (Credit Assignment) 当多个智能体共同获得一个全局奖励时,如何衡量每个智能体的“贡献”? 如果无法合理地将全局奖励分配给各智能体,会导致训练不稳定或难以收敛。 规模与维度爆炸 当联合动作空间 A = A 1