阅读COMA:Counterfactual Multi-Agent Policy Gradients

题目

Counterfactual Multi-Agent Policy Gradients,AAAI2018

作者

大佬组
牛津做多智能体强化学习的大佬组,后续多智能体强化学习的很多工作比如MAVEN也还是这个组做的,这里的Jakob N. Foerster很厉害,现在在FaceBook AI,他通信、多智能体竞争、合作都在研究。

摘要

单纯的强化学习用到多智能体环境下效果并不是很好,如果完全集中式学习,那么可能联合动作空间太大,学不了;或者说有些环境下要求执行的时候就是分布式执行,部分可观测或者通信有限制的,因此也没法集中式执行,因此需要一种分布式的策略执行方式。由于训练智能体时是可以利用大量集中式已知信息的,只要在执行的时候不适用这些信息就可以了,因此可以采用集中式训练分布式执行的框架训练智能体,本文就是在这种框架下提出了COMA。COMA有三个贡献点,首先提出了一个集中式的critic,在训练时一个统一的critic利用联合的动作信息,或者真实状态信息(如果可以获得);其次针对多智能体信用分配问题,提出了反事实的baseline,来帮助每个智能体评估自己的动作的奖励信息;最后设计了一个高效的critic网络(即规定了网络具体的输入输出),使得在估计反事实baseline的时候非常方便,针对每个智能体要评估的动作进行一次critic网络前传即可。

主要方法

在这里插入图片描述
一图胜千言,这个图非常明白,图a里有一个统一的critic,同时每个智能体有自己的actor(为了方便训练,actor之间应该是参数共享了,但actor的输入不同因此都有不同的表现),critic接收一切可能的信息,actor只接收局部信息,actor,critic网络分别如b,c所示(但我不太明白这里边上一时刻的动作 u t − 1 u_{t-1} ut1是怎么起作用的,之后再看)。

正常actor的梯度更新方式:
在这里插入图片描述
但是这里面没有考虑信用分配,用了v只是知道全局的奖励,单个智能体不知道自己的实际贡献,因此这里面把这个TD的损失换成了优势函数:
在这里插入图片描述
而且可以看出,上式中估计反事实baseline(减号后面求和的部分)需要的信息c中中间层都有了。

环境

实验是在星际微操的环境上进行的,NvN 的对战,双方队伍角色是一致的(角色组合可以换),在这个环境中每个智能体只能观测到部分信息,而在之前的研究中,就是那种集中式训练执行的工作,都是假定中心的智能体可以观测到所有信息,实验一般是和内置的手写启发式bot对战。
在这里插入图片描述

代码

网上有人把经典的多智能体强化学习的算法都给复现了,这里贴一下地址,大佬们还是强👍 code

其他

最后说一下这篇文章真的有点稍微难读,主要是长难句太多了,另外这里面的很多符号和现在常用的符号还都挺不一致的,比如动作是 u u u,不是 a a a. 另外文章中提到的一些相关工作的局限性,都让我有一种“你知道而我不知道”的感觉,比如说提到反事实baseline和aristocrat utility比较相近,但是后者有一个self consistency的缺点,关于后面这个self consistency我就没从原文中读懂(当然主要是我菜),但确实文章中提到了很多对于没有相关底子和积累的人来说很陌生的概念;另外文章中还提供了一个证明,关于反事实baseline不会影响AC算法本身的收敛性的,主要是说加了baseline以后不会影响策略梯度的期望,所以不影响收敛(=.= 应该是这样吧),以后再细看。

  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值