MADDPG:Multi-Agent Actor-Critic for Mixed Cooperative & MPE:Multi-Agent Particle Environment

相关资料

  1. 论文链接:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
  2. 代码地址:
    算法地址https://github.com/openai/maddpg
    环境地址https://github.com/openai/multiagent-particle-envs
  3. OpenAI官博:Learning to Cooperate,Compete, and Communicate
  4. 代码讲解:暂无

1.研究动机是什么

  本文主要是将单智体算法应用于多智体环境,由于多智能体的环境状态由多个agent的行为共同决定,本身具有不稳定性(non-stationarity),Q-learning算法很难训练,policy gradient算法的方差会随着智能体数目的增加变得更大。

2.主要解决了什么问题

  作者提出了一种actor-critic方法的变体MADDPG,对每个agent的强化学习都考虑其他agent的动作策略,进行中心化训练和非中心化执行,取得了显著效果。此外在此基础上,还提出了一种策略集成的训练方法,可以取得更稳健的效果(Additionally, we introduce a training regimen utilizing an ensemble of policies for each agent that leads to more robust multi-agent policies.)。

3.所提方法是什么

4.关键结果及结论是什么

4.1实验环境

Cooperative communication 合作通信: 这个任务由两个合作的智能体组成,一个说话者和一个听众,他们被放置在三个具有不同颜色的地标的环境中。在每个回合中,听众必须导航到特定颜色的地标处,并根据其到正确地标的距离获得奖励。然而,虽然听众可以观察地标的相对位置和颜色,但它不知道它必须导航到哪个地标。相反,说话者的观察由正确的界标颜色组成,并且它可以在每个时间步骤产生一个由听众观察到的通信输出。因此,说话者必须学会根据听众的动作输出地标的颜色。虽然这个问题相对比较简单,但是正如我们在5.2节中展示的那样,它对传统的RL算法提出了很大的挑战。

Cooperative navigation合作导航 : 在这种环境下,智能体必须通过物理行动协作抵达LL个地标。智能体观察其他智能体和地标的相对位置,并根据智能体与每个地标的接近程度进行集体奖励。换句话说,智能体必须“覆盖”所有的地标。此外,智能体占据显着的物理空间,并在相互碰撞时受到惩罚。我们的智能体学着推断他们必须覆盖的地标,并在避开其他智能体的同时移动到那里。

Keep-away远离: 这个场景由LL个地标组成,包括一个目标地标,NN个知道目标地标的合作智能体,根据他们与目标的距离给予奖励,MM个敌对智能体必须阻止合作智能体到达目标。敌对智能体通过将智能体从地标上推开,暂时占据地标来实现这一点。虽然敌对智能体也是根据他们与目标地标的距离给予奖励,但是他们不知道正确的目标;这必须从(其他)智能体的行动中推断出来。

Physical deception物理欺骗 :在这里,NN个智能体合作到达NN个目标地标。他们根据任何智能体到目标的最短距离得到奖励(所以只有一个智能体需要达到目标地标)。然而,一个单个的敌人也希望达到目标地标;这个问题的关键是对手不知道哪个地标是正确的。
因此,以对手距离为目标而受到惩罚的合作智能体,学着分散并占据所有地标,以欺骗对手。

Predator-prey捕食: 在这种经典捕食猎物博弈的变体中,NN个较慢的合作智能体必须围绕一个随机生成的环境追赶更快的对手,而LL个大地标阻碍了道路。每当合作智能体与对手发生冲突时,追捕的智能体就会得到奖励,而对手(也就是被捕食的智能体)则受到惩罚。捕食智能体可以观测到猎物智能体的相对位置和速度,以及地标的位置。

Covert communication隐蔽的沟通 这是一个敌对的通信环境,在这个环境中,一个说话者智能体(’Alice’)必须把一个消息传递给一个监听智能体(’Bob’),而这个智能体必须在另一端重建消息。然而,一个敌对的智能体(Eve)也在观察这个信道,并且想要重构这个信息 - Alice和Bob是基于Eve的重构而受到惩罚的,因此Alice必须使用随机生成的,只有Alice和Bob知道的密钥来编码她的信息。这与2中考虑的密码环境相似。

4.1实验结果

5.创新点在哪里

6.有值得阅读的相关文献吗

7.综合评价又如何

参考文献

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值