[ICLR2021] QPLEX: Duplex Dueling Multi-Agent Q-Learning 笔记

前言

该文章应该是线性值分解这类方法增强mixing network表达能力的终曲了,结构已经相当复杂,集中程度很高,不知道后面的线性值分解方法会怎么做。

其他人的介绍:https://zhuanlan.zhihu.com/p/201419315

QPLEX: DUPLEX DUELING MULTI-AGENT Q-LEARNING

ADVANTAGE-BASED IGM

从Dueling DQN中的分解 Q = V + A Q=V+A Q=V+A 角度看,IGM的一致性约束应该仅仅约束优势项 A A A,与状态值函数 V V V 无关。因此作者将IGM原则重新形式化为基于优势的IGM,也就将一致性约束转移到了优势函数上。
在这里插入图片描述
在这里插入图片描述
以上就是基于优势的IGM。

The advantage-based IGM and IGM function classes are equivalent.

在这里插入图片描述
最优联合动作的优势函数与agent最优动作的优势函数相等为0,agent其余动作小于0,其余联合动作不大于0.

THE QPLEX ARCHITECTURE

结构图如下:
在这里插入图片描述

loss为:
在这里插入图片描述
文中的 V ( s ) V(s) V(s) 就是 max ⁡ Q ( s , a ) \max Q(s,a) maxQ(s,a),所以优势函数不大于0,所以上面说最大最优动作为0,和 QTRAN 使用状态值网络输出的不同。

Individual Action-Value Function 就是 Q i ( τ i , a i ) Q_i(\tau_i,a_i) Qi(τ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值