多智能体强化学习论文——MAVEN

论文:MAVEN: Multi-Agent Variational Exploration

存在的问题&研究动机&研究思路

  1. Qmix的monotonic约束,导致算法得到局部最优解。文章给出了证明。
  2. 在单体强化学习任务中,可以通过动态调整 ϵ \epsilon ϵ的大小使探索更充分,然而多体中无法使用。
  3. MAVEN为了解决探索问题,引入了分层控制的隐空间

创新点

  1. 通过隐策略产生隐空间变量 z z z,在一个episode固定相关参数 θ \theta θ, ϕ \phi ϕ, ψ \psi ψ,产生 W z , a W_{z,a} Wz,a来增加每个智能体的探索。属于分层的控制。
  2. 在每一个时间步t,最大化轨迹 τ \pmb\tau τ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值