一、文章主要内容总结
该研究聚焦于协作式多智能体强化学习(MARL)中的价值分解方法,针对现有方法普遍依赖个体全局最大化(IGM)假设的核心局限展开突破。IGM假设要求局部最优动作与全局最优联合动作保持一致,这在多数真实场景中不成立,且限制了全局状态-动作价值函数的表示能力。
文章受心理学“双重自我意识”理论启发,提出了双重自我意识价值分解框架(DAVE) ,这是首个完全摒弃IGM假设的价值分解方法。其核心设计包括:
- 双网络架构:每个智能体包含“自我策略(ego policy)”和“他我价值函数(alter ego value function)”。自我策略负责动作选择,他我价值函数通过无IGM约束的混合网络参与全局信用分配,二者协同实现去中心化执行时对最优联合动作的搜索。
- 反自我探索机制(Anti-Ego Exploration):基于自编码器的重构误差识别未探索的状态-动作对,通过Softmin生成反自我策略,避免算法因搜索空间有限陷入局部最优。
- 灵活适配性:可应用于现有主流价值分解方法(如QMIX、QPLEX),将其转化为无IGM约束的版本。
实验验证方面,DAVE在单状态矩阵游戏、多步矩阵游戏及StarCraft II(SMAC)等复杂环境中均表现优异:在非单调任务中显著优于QMIX、QPLEX等基线方法,在高难度协作场景中实现更高胜率,且在SMACv2、多智能体MuJoCo等环境中展现出良好的泛化能力。

订阅专栏 解锁全文
473

被折叠的 条评论
为什么被折叠?



