多智能体强化学习论文——QMIX

QMIX是一种用于部分可观测多智能体强化学习的方法,它解决了分散式策略的挑战。通过集中式训练获取额外状态信息,但采用分散式执行。QMIX在智能体的Q值和总体Q值之间建立了单调关系,使用超网络确保权重非负,从而能更有效地利用状态信息。实验表明,使用额外状态信息和非线性混合对于性能提升至关重要。
摘要由CSDN通过智能技术生成

存在的问题&研究动机&研究思路

  1. 利用额外状态信息学习联合动作价值的策略是一种attractive的方式,但分散式的策略尚不清晰,因此提出QMIX。
  2. 部分可观测的情况下,只能依靠每个智能体历史的局部观测信息进行决策。
  3. 分散式的策略可以通过集中式的方式进行训练。这可以获得额外的状态信息,消除智能体之间通信的约束。这种方式遵循CTDE框架
  4. 通过全局状态和联合动作得到的总体的Q值不能很好的提取分散式的策略,即智能体只根据自己的局部观测值进行决策。
  5. 思路之一是放弃集中式的动作价值函数,直接让每个智能体学习自己的一个Q值(IQL),但是这种方法不容易收敛。另一种极端思路是采取CTDE框架学习一个集中式的critic来指导每个actor的训练,一种方法是COMA,但是这需要on-policy的学习,采样效率低,且智能体变多的时候效果不好。
  6. QMIX是介于IQL和COMA这两种极端方法之间,基于VDN的一种值分解方法。VDN将全局的动作价值函数看作是每个智能体Q值的累加。这限制打了功能的复杂性,并且没有使用额外的状体信息
  7. 严格来说,VDN和QMIX的 Q a Q_a Qa Q t o t Q_{tot} Qtot
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值