阅读QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

接上文VDN,本来我觉得QMIX全文会很难读,后来发现不是,哈哈,又畏难了,希望我挑战QTRAN和Qatten的时候也能这样。

题目作者

在这里插入图片描述
ICML18,作者是COMA那个团队,老师应该就是 Shimon Whiteson,好像是Peter Stone的学生,后者是做多智能体的大佬。

摘要

这篇文章是接着VDN做的,也就是对于基于team reward的多智能体合作问题,采用强化学习,使用集中式训练分布式执行(CTDE)中的值分解的方法,来训练智能体。之前我们也提到了,CTDE是一个比较常见的训练框架,但是具体怎么集中式训练仍然是一个开放式的问题,VDN中选择从值分解的角度集中式训练,认为team reward= ∑ i Q i \sum_i Q_i iQi Q i Q_i Qi是每个智能体网络估计的价值网络函数值(可能也不能叫这个,因为没有对应给定的实际的奖励),对此QMIX认为这里存在两个改进,首先在集中式训练的过程中VDN没有充分利用到集中式的优势、充分利用信息,其次team reward= ∑ i Q i \sum_i Q_i iQi这种简单的线性加和方式不能很好地覆盖到大多的多智能体问题,因此作出了他们的工作。

方法

再一次的我们强调,一图胜千言!这个图它就画得很明白
在这里插入图片描述

  • 首先针对VDN中 Q t o t = ∑ i Q i Q_{tot}=\sum_i Q_i Qtot=iQi,QMIX认为 Q t o t , Q i Q_{tot},Q_i Qtot,Qi之间应该是非线性关系,这种关系相对覆盖的问题空间更大一些;
  • 其次针对集中式训练利用信息,QMIX这里利用了状态信息 s t s_t st

这样再看figure2,(b)是整体的框架图,还是VDN那个形式,只是用mixing network取代了简单的加和,其次在mixing network里面还利用了 s t s_t st作为输入,而且是从不同层分别输入 s t s_t st,作者认为这样可以更加弹性地利用 s t s_t st的信息,而不是简单的像针对 Q i Q_i Qi一样处理。

那么在QMIX这里, Q t o t , Q i Q_{tot},Q_i Qtot,Qi是什么关系呢?
作者认为,为了保持训练和测试的一致性,只要让二者有以下关系就可以了:
关系
在这里插入图片描述
也就是 Q t o t 对于 Q i Q_{tot}\text{对于}Q_i Qtot对于Qi是单调的就可以了,对此在mixing network里我们让权重向量 W 1 , W 2 W_1,W_2 W1,W2都是正的即可。以上就是又实现了非线性关系,又保持了一致性。

实验和结果

作者先在一个Two-Step Game中验证了QMIX模型的表征复杂度的能力(就是对于这个两步博弈,QMIX可以找到最优解的,但是可能因为单个智能体和总的reward之间的关系不是VDN所想的那种完全分解,因此VDN没有找到最优解,所以VDN无法表征这个问题),同时在星际微操上做了实验,选取了几个地图,发现效果比QMIX,IQL好,而且对非线性、集中式利用状态信息分别做了消融实验,下面是结果图,小标题分别是地图上双方的单位配置,3m就是3个marine,2s_3z就是2个stalker,3个zealot
在这里插入图片描述
QMIX-LIN: 非线性变成线性;QMIX-NS: 没用状态信息;VDN-S: VDN加上状态信息
从(a)中可以看出:在同质智能体的环境中,未必要使用非线性的方式,但是非线性方式本身也没有降低学习速度;从(b)©异质地图中可以看出,非线性的方法对于这种问题还是比较合适的;从VDN-s和QMIX-NS中也可以看到,用了s比较好,而从QMIX比qmix-lin,vdn-s都要好看出,在s上添加非线性就是如虎添翼的效果。

其他

这篇文章写得也挺好的,实验也挺好读,另外图非常不错,一图胜千言!总之读完你就觉得嗯挺有道理的,实验也挺有道理的,当然这里面这个非线性的实现感觉还是值得再思考的。

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值