阅读MADDPG: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

题目

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments NeurIPS 17

作者

在这里插入图片描述
UCB和OpenAI联系比较紧密,这里面 吴翼,Pieter Abbeel, Igor Mordatch都是大佬。

摘要

本文主要是研究如何利用强化学习来解决多智能体环境下智能体之间的合作与竞争问题,作者认为直接将单智能体的基于值或者策略的方法推广到多智能体都会有问题,如基于值的方法的非平稳性,智能体在同时学习,过去的经验也不再那么有效及时;基于策略的方法随着智能体的增多算法的方差很大(不太明白),因此这里作者提出采用集中式训练分散执行的AC框架,来进行多智能体的学习。另外作者这里实验的环境非常好,也成为了后续多智能体强化学习好多研究的标准测试环境,是在本文最后的两个作者17年的这篇文章1上修改的,包含了多智能体竞争、合作、有无通信等多方面的性能验证环境。

主要方法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

环境介绍

在这里插入图片描述

Multiagent-Particle-Envs
主要有六个环境,分别涉及竞争、合作、通信、无通信只有物理交互等等,基本设定就是这里有N个智能体,L个地标(landmarks)

  • cooperative communication:Fig2 a, listener能看见具体的地标,但不知道去哪,speaker知道去哪,因此需要学会给listener发消息成功给listener导航,感觉是两个语言不同的人逐渐学会沟通;合作,学会通信;另外这个环境目前也提供双方同时为learner,speaker的情况,就是都知道对方的目标并且学会告诉对方;
  • cooperative navigation:Fig2 c, 几个智能体要占据所有的地标并且避免相撞;分拣,匹配(或者其他相关的场景吧),合作,无通信;
  • keep away:两组智能体N,M,L个地标,其中一个是target地标,N知道target,M不知道target但可以驱逐N组,环境根据两组智能体到target的距离给予奖励,因此M组必须通过N组智能体们的动作推测target,并且驱逐N,环境还挺复杂的,有点谍战片的意思;竞争,无通信;
  • physical deception:Fig2 d, L个地标有一个target,N组智能体中有一个距离target最近就可以获得奖励,此外环境中还有一个对手智能体,同样要猜测target并且占据target,因此N组智能体会学习分散cover landmark来欺骗对手智能体;竞争,无通信;
  • predator-prey:Fig2 b,追捕场景,N个智能体追逐一个对手智能体,场景中还有地标作为障碍;竞争,无通信;另外这个环境可以变得非常复杂,如增加遮蔽地,增加"透视眼"agent等等;
  • covert communication:Alice将信息编码传给Bob,Bob重建信息,但是信息可能会被Eve截获,环境根据Eve重建信息的质量好坏来给Alice Bob惩罚或者奖励,因此Alice和Bob得学会一种事先规定好的编码解码体系,有点密码学的意思,竞争,通信。

这里的竞争就是竞争场景的意思,但是学习的智能体之间未必是竞争关系~
另外这里用得比较多的还是 cooperative navigation和predator-prey问题,因为感觉其他环境也不知道是在具体验证什么问题,不太实际和明显。

代码

code 在这里


  1. I. Mordatch and P. Abbeel. Emergence of grounded compositional language in multi-agent populations. arXiv preprint arXiv:1703.04908, 2017 ↩︎

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值