MADDPG:Multi-Agent Actor-Critic for Mixed Cooperative & MPE:Multi-Agent Particle Environment

最新推荐文章于 2024-03-23 09:58:46 发布

azeyeazeye

最新推荐文章于 2024-03-23 09:58:46 发布

阅读量584

点赞数 1

分类专栏：多智能体强化学习MARL 文章标签：算法 MARL 多智能体强化学习 MADDPG DDPG

本文链接：https://blog.csdn.net/azeyeazeye/article/details/114929326

版权

多智能体强化学习MARL 专栏收录该内容

4 篇文章 5 订阅

订阅专栏

1.研究动机是什么

本文主要是将单智体算法应用于多智体环境，由于多智能体的环境状态由多个agent的行为共同决定，本身具有不稳定性(non-stationarity)，Q-learning算法很难训练，policy gradient算法的方差会随着智能体数目的增加变得更大。

2.主要解决了什么问题

作者提出了一种actor-critic方法的变体MADDPG，对每个agent的强化学习都考虑其他agent的动作策略，进行中心化训练和非中心化执行，取得了显著效果。此外在此基础上，还提出了一种策略集成的训练方法，可以取得更稳健的效果(Additionally, we introduce a training regimen utilizing an ensemble of policies for each agent that leads to more robust multi-agent policies.)。

3.所提方法是什么

4.关键结果及结论是什么

4.1实验环境

Cooperative communication 合作通信：这个任务由两个合作的智能体组成，一个说话者和一个听众，他们被放置在三个具有不同颜色的地标的环境中。在每个回合中，听众必须导航到特定颜色的地标处，并根据其到正确地标的距离获得奖励。然而，虽然听众可以观察地标的相对位置和颜色，但它不知道它必须导航到哪个地标。相反，说话者的观察由正确的界标颜色组成，并且它可以在每个时间步骤产生一个由听众观察到的通信输出。因此，说话者必须学会根据听众的动作输出地标的颜色。虽然这个问题相对比较简单，但是正如我们在5.2节中展示的那样，它对传统的RL算法提出了很大的挑战。

Cooperative navigation合作导航 ：在这种环境下，智能体必须通过物理行动协作抵达LL个地标。智能体观察其他智能体和地标的相对位置，并根据智能体与每个地标的接近程度进行集体奖励。换句话说，智能体必须“覆盖”所有的地标。此外，智能体占据显着的物理空间，并在相互碰撞时受到惩罚。我们的智能体学着推断他们必须覆盖的地标，并在避开其他智能体的同时移动到那里。

Keep-away远离：这个场景由LL个地标组成，包括一个目标地标，NN个知道目标地标的合作智能体，根据他们与目标的距离给予奖励，MM个敌对智能体必须阻止合作智能体到达目标。敌对智能体通过将智能体从地标上推开，暂时占据地标来实现这一点。虽然敌对智能体也是根据他们与目标地标的距离给予奖励，但是他们不知道正确的目标；这必须从（其他）智能体的行动中推断出来。

Physical deception物理欺骗 ：在这里，NN个智能体合作到达NN个目标地标。他们根据任何智能体到目标的最短距离得到奖励（所以只有一个智能体需要达到目标地标）。然而，一个单个的敌人也希望达到目标地标；这个问题的关键是对手不知道哪个地标是正确的。
因此，以对手距离为目标而受到惩罚的合作智能体，学着分散并占据所有地标，以欺骗对手。

Predator-prey捕食：在这种经典捕食猎物博弈的变体中，NN个较慢的合作智能体必须围绕一个随机生成的环境追赶更快的对手，而LL个大地标阻碍了道路。每当合作智能体与对手发生冲突时，追捕的智能体就会得到奖励，而对手（也就是被捕食的智能体）则受到惩罚。捕食智能体可以观测到猎物智能体的相对位置和速度，以及地标的位置。

Covert communication隐蔽的沟通 这是一个敌对的通信环境，在这个环境中，一个说话者智能体（’Alice’）必须把一个消息传递给一个监听智能体（’Bob’），而这个智能体必须在另一端重建消息。然而，一个敌对的智能体（Eve）也在观察这个信道，并且想要重构这个信息 - Alice和Bob是基于Eve的重构而受到惩罚的，因此Alice必须使用随机生成的，只有Alice和Bob知道的密钥来编码她的信息。这与2中考虑的密码环境相似。

4.1实验结果

5.创新点在哪里

6.有值得阅读的相关文献吗

7.综合评价又如何

参考文献

azeyeazeye

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MADDPG:Multi-Agent Actor-Critic for Mixed Cooperative & MPE:Multi-Agent Particle Environment

MAPPO论文代码1.研究动机是什么2.主要解决了什么问题3.所提方法是什么MAPPO算法细节提升PPO性能的5个关键4.关键结果及结论是什么主要结论MPE实验SMAC实验Hanabi实验消融实验值归一化Agent-Specific Global StateTraining Data UsageAction MaskingDeath Masking5.创新点在哪里6.有值得阅读的相关文献吗7.综合评价又如何新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代
复制链接

扫一扫

专栏目录