MADDPG openai 博客

最新推荐文章于 2024-06-21 16:07:05 发布

强殖装甲凯普

最新推荐文章于 2024-06-21 16:07:05 发布

阅读量2k

点赞数 1

分类专栏：杂文

本文链接：https://blog.csdn.net/qq_38163755/article/details/99685257

版权

杂文专栏收录该内容

68 篇文章 5 订阅

订阅专栏

文章目录

Where Traditional RL Struggles
Initial Research
Next Step

智能体争夺资源的多智能体环境是通用人工智能AGI之路上的垫脚石。多智能体环境有两个有用的属性：第一，有一个自然的课程——环境的难度取决于你的竞争对手的技能（如果你与自己的克隆竞争，环境完全符合你的技能水平）。其次，多智能体环境没有稳定的均衡：无论智能体多么聪明，总是有变得更聪明的压力。这些环境与传统环境有着截然不同的感觉，在我们擅长这些环境之前，我们需要做更多的研究。
我们开发了一种新的算法MADDPG，用于在多智能体环境中集中学习和分散执行，使智能体能够学会相互协作和竞争。
在这里插入图片描述

MADDPG被用来训练四名红色智能体追捕两名绿色智能体。红智能体学会了互相合作去追捕一个绿智能体，从而获得更高的奖励。与此同时，绿智能体学会了分开，当一个被追赶时，另一个试图靠近水面（蓝圈），同时避开红色特工。
MADDPG扩展了一个称为DDPG的强化学习算法，从actor-critic强化学习技术中获得灵感；其他小组正在探索这些想法的变化和并行实现。
我们将模拟中的每个智能体视为“演员”，每个演员都从“评论家”那里获得建议，帮助演员决定在训练期间要采取哪些行动。传统地，批评家试图预测在一个特定的状态下动作的值（比如我们期望在未来获得的回报），这被智能体-——演员——用来更新其策略。这比直接使用奖励更稳定，奖励可能会有很大差异。为了使训练能够以全局协调方式行动的多智能体成为可能，我们加强了我们的批评者，以便他们能够访问所有智能体的观察和行动，如下图所示：
在这里插入图片描述

我们的智能体不需要在测试时访问中心批评家；他们的行为基于他们的观察和他们对其他智能体行为的预测。由于一个集中的批评者是为每个智能体独立学习的，我们的方法也可以用来模拟智能体之间的任意奖励结构，包括奖励相反的对抗性案例。
在这里插入图片描述

我们在各种任务上测试了我们的方法，它在所有任务上的性能都优于DDPG。在上面的动画中，你可以看到，从左到右：两个人工智能代理试图去一个特定的地点，并学习分裂，以向敌对智能体隐藏他们的目标地点；一个智能体将地标的名称传达给另一个智能体；还有三个智能体协调前往地标而不相互碰撞。
在这里插入图片描述

接受过MADDPG训练的红色智能体表现出比接受过DDPG训练的更为复杂的行为。在上面的动画中，我们看到用我们的技术（左）和DDPG（右）训练的智能体试图通过绿色森林和黑色障碍物追逐绿色智能体。我们的智能体比那些接受过DDPG培训的智能体捕捉更多的智能体，并能明显地协调更多的智能体。

Where Traditional RL Struggles

传统的分散式RL方法——DDPG、actor-critic、深度Q学习等等——在多智能体环境中难以学习，因为每个智能体都会尝试学习预测其他智能体的行为，同时也会采取自己的行动。在竞争环境中尤其如此。MADDPG雇佣了一位集中的批评家，向智能体提供有关其同行观察和潜在行动的信息，将不可预测的环境转变为可预测的环境。
使用策略梯度方法提出了进一步的挑战：因为这些方法具有很高的方差，所以当奖励不一致时，学习正确的策略是很难的。我们还发现，加入一个批评家，尽管提高了稳定性，仍然无法解决我们的一些环境，如合作交流。似乎在训练过程中考虑他人的行为对于学习协作策略很重要。

Initial Research

在开发MADDPG之前，当使用分散式技术时，我们注意到，listener智能体通常会学会忽略speaker，如果他发送关于去哪里的消息不一致。然后，智能体会将与speaker消息相关的所有权重设置为0，从而有效地使自身变聋。一旦发生这种情况，训练就很难恢复，因为由于没有任何反馈，speaker永远不会知道是否说了正确的话。为了解决这个问题，我们研究了最近一个分级强化项目中概述的一种技术，它允许我们强制listener在决策过程中加入speaker的话语。这种方法不起作用，因为尽管它迫使listener注意speaker，但它不能帮助speaker弄清楚说什么是相关的。我们的集中批评方法有助于应对这些挑战，帮助speaker了解哪些话语可能与其他智能体的行为相关。

Next Step

智能体建模在人工智能研究中有着丰富的历史，其中许多场景都曾被研究过。许多以前的研究只考虑有少量时间步和较小的状态空间的游戏。深度学习让我们能够处理复杂的视觉输入，而RL则为我们提供了长期学习行为的工具。既然我们可以使用这些能力一次培训多个智能体，而无需了解环境的动态（环境如何在每个时间步骤中发生变化），我们可以在学习环境的高维信息的同时，解决更广泛的涉及通信和语言的问题。

强殖装甲凯普

关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
MADDPG openai 博客

文章目录智能体争夺资源的多智能体环境是通用人工智能AGI之路上的垫脚石。多智能体环境有两个有用的属性：第一，有一个自然的课程——环境的难度取决于你的竞争对手的技能（如果你与自己的克隆竞争，环境完全符合你的技能水平）。其次，多智能体环境没有稳定的均衡：无论智能体多么聪明，总是有变得更聪明的压力。这些环境与传统环境有着截然不同的感觉，在我们擅长这些环境之前，我们需要做更多的研究。我们开发了一种新的...
复制链接

扫一扫

专栏目录