多智能体强化学习论文——QPLEX

最新推荐文章于 2025-01-11 23:30:00 发布

条件反射104

最新推荐文章于 2025-01-11 23:30:00 发布

阅读量847

点赞数 1

分类专栏：多智能体强化学习文章标签：深度学习机器学习强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40317204/article/details/120409961

版权

多智能体强化学习专栏收录该内容

18 篇文章

订阅专栏

存在的问题&研究动机&研究思路

对于CTDE框架下的多智能体值方法，joint greedy action应该等于每个个体的greedy action的集合，即IGM原则。
VDN和QMIX提出的联合效用函数与单体效用函数的相加性和单调性。

创新点

提出了advantage-based IGM，将IGM的动作值函数一致性约束转化为优势函数的一致性约束。
一致性约束的好处是，它可以通过限制优势函数的取值范围，直接实现其一致性约束。
最终的 $Q_{tot}$ 可以写为：

等式右边第一项是VDN，第二项是对第一项表达不完全的一个修正，是QPLEX的主要贡献。
全局信息可以是全局状态 $s$ ，如果得不到，那么就用联合动作观测历史 $\tau$ 。

算法框图

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。