Dual Self-Awareness Value Decomposition Framework without Individual Global Max for Cooperative MARL

一、文章主要内容总结

该研究聚焦于协作式多智能体强化学习(MARL)中的价值分解方法,针对现有方法普遍依赖个体全局最大化(IGM)假设的核心局限展开突破。IGM假设要求局部最优动作与全局最优联合动作保持一致,这在多数真实场景中不成立,且限制了全局状态-动作价值函数的表示能力。

文章受心理学“双重自我意识”理论启发,提出了双重自我意识价值分解框架(DAVE) ,这是首个完全摒弃IGM假设的价值分解方法。其核心设计包括:

  1. 双网络架构:每个智能体包含“自我策略(ego policy)”和“他我价值函数(alter ego value function)”。自我策略负责动作选择,他我价值函数通过无IGM约束的混合网络参与全局信用分配,二者协同实现去中心化执行时对最优联合动作的搜索。
  2. 反自我探索机制(Anti-Ego Exploration):基于自编码器的重构误差识别未探索的状态-动作对,通过Softmin生成反自我策略,避免算法因搜索空间有限陷入局部最优。
  3. 灵活适配性:可应用于现有主流价值分解方法(如QMIX、QPLEX),将其转化为无IGM约束的版本。

实验验证方面,DAVE在单状态矩阵游戏、多步矩阵游戏及StarCraft II(SMAC)等复杂环境中均表现优异:在非单调任务中显著优于QMIX、QPLEX等基线方法,在高难度协作场景中实现更高胜率,且在SMACv2、多智能体MuJoCo等环境中展现出良好的泛化能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值