python实现多智能体一致性_多智能体强化学习算法QMIX

QMIX是一种用于深度多智能体强化学习的算法,通过单调价值函数分解来保证一致性。它解决了智能体之间互动表示的难题,避免了单一智能体学习的干扰。QMIX使用混合网络将每个智能体的Q值非负线性组合,通过超参数网络根据全局状态生成权重,确保单调性。相比于VDN,QMIX具有更强的表示能力和准确性,且计算复杂度与智能体数量线性相关,提升了算法效率。
摘要由CSDN通过智能技术生成

QMIX Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

困难:如何去表达和使用强化学习学习到的action-value 函数:

1. 合适的获取智能体动作产生的影响需要集中的action-value函数基于全局的状态和联合的动作。

2. 在有多个智能体的时候的动作价值函数是难以学习的,即使能学习,也很难有效的策略依照单个智能体的观测数据。

已有方法:

1. 最简单的是每个智能体都训练一个自己的action-value函数, IQL,但是这个方法不能表现出智能体之间的互动,而且每个智能体的训练会被其他智能体的探索和学习干扰。

2. 训练一个完全中心化的action-value function, COMA.缺点:on-policy, 采样效率低,不能应对智能体太多的情况

3. 中间方法,训练一个既集中又分解的action-value Q, 一种方法通过value decomposition networks(VDN), Q是通过将每一个智能体用自己的观测数据学习到的action-value 函数相加得到的。这种方法缺点是太简单了,Q的表达能力有限。

QMIX

为了保持一致性,智能体不必需要每一个智能体的每个value, 而是只使用他们的argmax。

720fa86598a8cdc6fcb95258892a480a.png

换句话说,我们的全局的Qtot所得到的

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值