多智能体强化学习论文——QPLEX

存在的问题&研究动机&研究思路

  1. 对于CTDE框架下的多智能体值方法,joint greedy action应该等于每个个体的greedy action的集合,即IGM原则。
  2. VDN和QMIX提出的联合效用函数与单体效用函数的相加性和单调性。

创新点

  1. 提出了advantage-based IGM,将IGM的动作值函数一致性约束转化为优势函数的一致性约束。
  2. 一致性约束的好处是,它可以通过限制优势函数的取值范围,直接实现其一致性约束。
  3. 最终的 Q t o t Q_{tot} Qtot可以写为:
    在这里插入图片描述
    等式右边第一项是VDN,第二项是对第一项表达不完全的一个修正,是QPLEX的主要贡献。
  4. 全局信息可以是全局状态 s s s,如果得不到,那么就用联合动作观测历史 τ \tau τ

算法框图

在这里插入图片描述

【项目介绍】 基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip 基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip 基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip 【说明】 1、项目源码在上传前,都经过本地成功运行,功能测试无误。请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、机械电子信息等相关专业背景的在校大学生、专业老师 行业从业人员等下载使用。 3、用途:项目代表性强,具有创新性和启发性,故具有挺高的学习借鉴价值。不仅适合小白入门进阶,还可作为毕设项目、课程设计、大作业、比赛初期项目立项演示等。 4、如果基础还不错,又热爱学习钻研,也可基于此项目基础上进行修改进行二次开发。 本人也是技术狂热者,如果觉得此项目对您有价值,欢迎下载使用! 无论您是运行还是二次开发,遇到问题或困惑,欢迎私信交流学习。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值