Dual Self-Awareness Value Decomposition Framework without Individual Global Max for Cooperative MARL

UnknownBody_2

于 2025-12-21 08:15:00 发布

阅读量235

点赞数 6

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM RL 文章标签：人工智能语言模型自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/UnknownBody_2/article/details/155935826

LLM Daily 同时被 2 个专栏收录

76 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

2 篇文章

订阅专栏

一、文章主要内容总结

该研究聚焦于协作式多智能体强化学习（MARL）中的价值分解方法，针对现有方法普遍依赖个体全局最大化（IGM）假设的核心局限展开突破。IGM假设要求局部最优动作与全局最优联合动作保持一致，这在多数真实场景中不成立，且限制了全局状态-动作价值函数的表示能力。

文章受心理学“双重自我意识”理论启发，提出了双重自我意识价值分解框架（DAVE） ，这是首个完全摒弃IGM假设的价值分解方法。其核心设计包括：

双网络架构：每个智能体包含“自我策略（ego policy）”和“他我价值函数（alter ego value function）”。自我策略负责动作选择，他我价值函数通过无IGM约束的混合网络参与全局信用分配，二者协同实现去中心化执行时对最优联合动作的搜索。
反自我探索机制（Anti-Ego Exploration）：基于自编码器的重构误差识别未探索的状态-动作对，通过Softmin生成反自我策略，避免算法因搜索空间有限陷入局部最优。
灵活适配性：可应用于现有主流价值分解方法（如QMIX、QPLEX），将其转化为无IGM约束的版本。

实验验证方面，DAVE在单状态矩阵游戏、多步矩阵游戏及StarCraft II（SMAC）等复杂环境中均表现优异：在非单调任务中显著优于QMIX、QPLEX等基线方法，在高难度协作场景中实现更高胜率，且在SMACv2、多智能体MuJoCo等环境中展现出良好的泛化能力。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。