阅读MADDPG: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

最新推荐文章于 2024-04-17 20:41:56 发布

有点可爱的小学僧

最新推荐文章于 2024-04-17 20:41:56 发布

阅读量653

点赞数

分类专栏：多智能体强化学习

本文链接：https://blog.csdn.net/weixin_42426834/article/details/108718510

版权

多智能体强化学习专栏收录该内容

6 篇文章 15 订阅

订阅专栏

MADDPG

题目
作者
摘要
主要方法
环境介绍
代码

题目

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments NeurIPS 17

作者

在这里插入图片描述
UCB和OpenAI联系比较紧密，这里面吴翼，Pieter Abbeel, Igor Mordatch都是大佬。

摘要

本文主要是研究如何利用强化学习来解决多智能体环境下智能体之间的合作与竞争问题，作者认为直接将单智能体的基于值或者策略的方法推广到多智能体都会有问题，如基于值的方法的非平稳性，智能体在同时学习，过去的经验也不再那么有效及时；基于策略的方法随着智能体的增多算法的方差很大（不太明白），因此这里作者提出采用集中式训练分散执行的AC框架，来进行多智能体的学习。另外作者这里实验的环境非常好，也成为了后续多智能体强化学习好多研究的标准测试环境，是在本文最后的两个作者17年的这篇文章¹上修改的，包含了多智能体竞争、合作、有无通信等多方面的性能验证环境。

主要方法

在这里插入图片描述

环境介绍

在这里插入图片描述

Multiagent-Particle-Envs
主要有六个环境，分别涉及竞争、合作、通信、无通信只有物理交互等等，基本设定就是这里有N个智能体，L个地标（landmarks）

cooperative communication：Fig2 a, listener能看见具体的地标，但不知道去哪，speaker知道去哪，因此需要学会给listener发消息成功给listener导航，感觉是两个语言不同的人逐渐学会沟通；合作，学会通信；另外这个环境目前也提供双方同时为learner，speaker的情况，就是都知道对方的目标并且学会告诉对方；
cooperative navigation：Fig2 c, 几个智能体要占据所有的地标并且避免相撞；分拣，匹配（或者其他相关的场景吧），合作，无通信；
keep away：两组智能体N，M，L个地标，其中一个是target地标，N知道target，M不知道target但可以驱逐N组，环境根据两组智能体到target的距离给予奖励，因此M组必须通过N组智能体们的动作推测target，并且驱逐N，环境还挺复杂的，有点谍战片的意思；竞争，无通信；
physical deception：Fig2 d, L个地标有一个target，N组智能体中有一个距离target最近就可以获得奖励，此外环境中还有一个对手智能体，同样要猜测target并且占据target，因此N组智能体会学习分散cover landmark来欺骗对手智能体；竞争，无通信；
predator-prey：Fig2 b，追捕场景，N个智能体追逐一个对手智能体，场景中还有地标作为障碍；竞争，无通信；另外这个环境可以变得非常复杂，如增加遮蔽地，增加"透视眼"agent等等；
covert communication：Alice将信息编码传给Bob，Bob重建信息，但是信息可能会被Eve截获，环境根据Eve重建信息的质量好坏来给Alice Bob惩罚或者奖励，因此Alice和Bob得学会一种事先规定好的编码解码体系，有点密码学的意思，竞争，通信。

这里的竞争就是竞争场景的意思，但是学习的智能体之间未必是竞争关系~
另外这里用得比较多的还是 cooperative navigation和predator-prey问题，因为感觉其他环境也不知道是在具体验证什么问题，不太实际和明显。

代码

code 在这里

I. Mordatch and P. Abbeel. Emergence of grounded compositional language in multi-agent populations. arXiv preprint arXiv:1703.04908, 2017 ↩︎

有点可爱的小学僧

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
阅读MADDPG: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

MADDPG题目作者摘要题目Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments作者UCB和OpenAI联系比较紧密，这里面吴翼，Pieter Abbeel, Igor Mordatch都是大佬。摘要本文主要是研究如何利用强化学习来解决多智能体环境下智能体之间的合作与竞争问题，作者认为直接将单智能体的基于值或者策略的方法推广到多智能体都会有问题，如基于值的方法的非平稳性，智能体在同时学习，过去的经验也不
复制链接

扫一扫