《AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents》全文翻译

最新推荐文章于 2025-04-15 16:27:59 发布

酿久诗

最新推荐文章于 2025-04-15 16:27:59 发布

阅读量1.4k

点赞数 1

分类专栏：论文阅读笔记文章标签： AgentVerse

本文链接：https://blog.csdn.net/qq_41731861/article/details/132906698

版权

论文阅读笔记专栏收录该内容

12 篇文章

订阅专栏

《AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents》- AgentVerse：促进多智能体协作并探索智能体的紧急行为

论文信息
摘要
1. 介绍
2. AgentVerse 框架
3. 实验
4. 多智能体组内的紧急行为
5. 相关工作
6. 限制和未来工作
7. 结论
A. 定量实验的配置
B. Minecraft 实验细节
C. 提示
D. 定性实验的例子

论文信息

题目：《AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents》
作者：清华、北邮和微信团队
期刊：arXiv
发表时间：21 Aug 2023
官方代码：https://github.com/OpenBMB/AgentVerse；
内容概述：这篇研究论文提出了一个多智能体框架 AGENTVERSE，它可以协作、动态地调整其组成，成为一个大于各部分之和的系统。

摘要

由大型语言模型（LLM）支持的自主代理已经取得了显着的改进，使它们能够泛化广泛的任务。然而，在现实场景中，往往需要个体之间的合作来提高任务完成的效率和效果。因此，受人类群体动力学的启发，我们提出了一个多智能体框架 AGENTVERSE，它可以协作、动态地调整其组成，成为一个大于各部分之和的系统。我们的实验表明，AGENTVERSE 框架可以有效地部署优于单个代理的多代理组。此外，我们深入研究了在协作任务完成过程中群体内个体代理之间社交行为的出现。鉴于这些行为，我们讨论了一些可能的策略，以利用积极的行为并减轻消极的行为，以提高多智能体群体的协作潜力。我们的 AGENTVERSE 代码即将在 https://github.com/OpenBMB/AgentVerse 发布。

1. 介绍

长期以来，追求创建能够帮助人类并在现实环境中有效运行的智能和自主代理一直是人工智能领域的基石（Wooldridge & Jennings，1995；Minsky，1988；Bubeck 等，2023）。大型语言模型 (LLM) 的最新进展（OpenAI，2023；Anil 等人，2023；Touvron 等人，2023b）为该领域带来了许多新机遇。具体来说，最近提出的 LLM，GPT-4（OpenAI，2023）因其在理解人类意图、执行命令以及在语言理解、视觉、编码和数学等不同领域展示卓越能力方面的熟练程度而特别引人注目（Bubeck等人，2023）。通过利用 LLMs 的能力，自主代理可以做出更有效的决策并执行有效的行动，以前所未有的自主程度完成任务（Zhou et al., 2023）。几个概念验证的自主代理，例如 AutoGPT (Richards & et al., 2023)、BabyAGI (Nakajima, 2023) 和 AgentGPT (Reworkd, 2023) 都是鼓舞人心的例子。此外，最近的研究赋予自主代理更多类似人类的认知机制，包括反射（Yao et al., 2023b; Shinn et al., 2023）、任务分解（Wei et al., 2022b; Yao et al., 2023a），以及工具利用/创建（Schick 等人，2023；Qin 等人，2023a,b；Qian 等人，2023b）。这些进步使我们更接近实现通用人工智能 (AGI) 的概念（Goertzel & Pennachin，2007；Clune，2019），使自主代理能够泛化更广泛的任务。

然而，在现实场景中，软件开发、咨询、游戏等复杂任务可能需要个体之间的合作才能取得更好的效率。纵观历史，大量研究（Woolley et al., 2010；Fehr & Gächter, 2000）深入探讨了加强人类协作以提高工作效率和效果的方法。最近，随着自主智能体向通用人工智能的发展，某些研究将智能体的集合概念化为一个社会或群体（Li et al., 2023），并专注于探索它们合作的潜力。例如，帕克等人（2023）发现协作行为出现在一组代理中。此外，杜等人（2023）；王等人（2023b）；张等人（2023a）；钱等人（2023a）；陈等人 (2023) 还发现，多智能体组可以增强协作解决问题过程中的决策能力。尽管这些研究探索了智能体协作的潜力，但它们的静态群体组成（群体内的智能体身份和能力保持固定）阻碍了它们适应不断变化的挑战。

为了解决这个问题，我们引入了AGENTVERSE 框架。该框架模拟了人类群体解决问题的过程，并允许根据当前问题解决的进度动态调整群体成员。具体来说，AGENTVERSE 将群体解决问题的过程分为四个关键阶段，如图1 所示： (1) 专家招募——招募模块根据当前问题解决进度调整专家代理。 (2) 协作决策——招募的代理进行协作讨论，旨在制定解决所提出问题的策略。一旦达成共识，就会提出建议的行动。 (3) 动作执行——代理与环境交互以执行动作。 (4) 评估——执行行动后，该模块评估当前状态与期望目标之间的差异。如果当前状态达不到预期，则会向第一阶段发送反馈奖励，并动态调整小组的构成，以利于下一轮的协作。
在这里插入图片描述

图 1：AGENTVERSE 的图示。

最后，我们在复杂任务中进行定量实验和案例研究，以证明 AGENTVERSE 的有效性。此外，我们还重点介绍了多智能体协作中出现的某些社会行为，并讨论了它们的优势和潜在风险。

总之，这项工作的贡献是：

总体而言，受到人类团队协作过程的启发，AGENTVERSE 建立了一个有效的框架，用于促进多个代理之间在解决问题方面的协作。
通过定量实验表明，AGENTVERSE 使多智能体组能够在需要不同能力的数学推理、代码完成和响应生成等任务中超越单个智能体的性能。
在案例研究中，我们将 AGENTVERSE 部署在软件开发、咨询、玩 Minecraft 游戏等多种场景中，讨论 AGENTVERSE 的实际优势。
在多智能体协作中，尤其是在《我的世界》游戏中，智能体会表现出某些紧急行为。例如，（1）志愿者行为，其特点是代理人向同伴提供帮助，从而提高团队效率；（2）从众行为，即主体在他人的批评下调整自己的偏差行为以与共同目标保持一致； (3) 破坏性行为，有时会导致不良和有害的结果。我们进一步讨论如何利用积极行为来加强团队协作，同时防止消极行为的出现。

2. AgentVerse 框架

解决问题的过程是人类群体内的一系列迭代阶段（Bransford & Stein，1993）。最初，该小组评估当前状态与预期目标之间的差异，动态调整其组成以加强决策中的协作，然后执行明智的行动。

为了提高自主多智能体群体实现目标的有效性，我们模拟人类群体解决问题的过程，提出了 AGENTVERSE 框架，该框架由四个关键阶段组成：专家招募、协作决策、操作执行和评估，如图 1 所示。整个过程可以建模为马尔可夫决策过程 (MDP)，其特征为元组 $(S 、 A 、 T 、 R 、 G)$ 。这包括自主代理和环境状态空间 $S$ 、解决方案和行动空间 $A$ 、转换函数 $T : S \times A \to S$ 、奖励函数 $R$ 和目标空间 $G$ 。

2.1 专家招募

专家招募阶段决定了多智能体群体的构成，是决定群体能力上限的重要模块。经验证据表明，人类群体内部的多样性引入了不同的观点，从而提高了群体在不同任务中的表现（Woolley et al., 2015；Phillips & O’Reilly, 1998）。最近研究的并行结果表明，为自主代理指定特定角色，类似于招募专家组建团队，可以增强其效率（Li et al., 2023；Salewski et al., 2023；Qian et al., 2023a）。当前为自主代理分配角色描述的方法主要依赖于人类直觉和先验知识，需要基于任务理解进行手动分配。因此，可扩展性仍然不明确，特别是在面对多样化且复杂的问题环境时。

鉴于此，AGENTVERSE 采用自动化的方式来招募专家，目的是增强配置代理的可扩展性。对于给定的目标 $g \in G$ ，特定的自主代理 $M_r$ 被指定为 “招聘人员”，类似于人力资源经理。 $M_r$ 不依赖预定义的专家描述，而是根据当前目标 $g$ 动态生成一组专家描述。不同的代理根据这些不同的专家描述进行提示，然后针对给定的目标 $g$ 形成一个专家组 $M = M_r(g)$ 。请注意，多智能体组的组成将根据评估阶段的反馈进行动态调整（第 2.4 节）。这使得框架能够根据当前状态（收到的奖励）采用最有效的多智能体组，以便在后续回合中做出更好的决策。

2.2 协同决策

此阶段聚集专家代理进行协作决策。为了促进有效决策，许多研究探讨了代理之间不同沟通结构的功效（Wang et al., 2023b；Qian et al., 2023a；Chan et al., 2023；Zhang et al., 2023b）。我们选择两种典型的沟通结构作为我们的主要关注点：分别是水平沟通和垂直沟通（Wu et al., 2023）。

横向沟通 当与横向沟通结构进行沟通时，每个智能体（表示为 $m_i ∈ M$ ）积极共享并细化其决策 $a_{m_i}$ 。这种民主的沟通结构鼓励代理人之间的相互理解和协作。来自代理的集体见解被组合起来形成当前回合的群体决策，表示为 $A = f (\{a_{m_i}\}_i) ∈ A$ 。 $f$ 表示总结或集成所有代理做出的决策的集成函数。在需要创造性想法或需要大量协调的场景中，例如头脑风暴、咨询或合作游戏，横向沟通可能是更实际的选择。

垂直沟通 另一方面，垂直沟通的特点是职责分工。一个代理（表示为求解器 $m^*$ ）提出初始决策 $a^*_0$ 。其余的代理充当评审者，对求解器的提案提供反馈。根据反馈，求解器随后完善决策。这种细化机制会迭代重复，直到所有评审者就求解器的决策达成共识，或者直到该过程耗尽其最大迭代次数。然后决策 $A$ 表示为 $A = a^∗_k ∈ A$ ，其中 $k$ 是迭代细化的总数。

在需要针对特定目标迭代完善决策的场景中，例如软件开发，垂直沟通将是更好的选择。

2.3 动作执行

如前所述，在决策阶段，智能体协作制定包含需要在当前环境中执行的操作的群体决策 $A$ 。在动作执行阶段，代理执行指定的动作。需要注意的是，根据具体的实现，有些代理可能不执行任何操作。这些操作的结果是，环境状态从 $s_{old}$ 转变为 $s_{new} = T$ (sold, A)。

2.4 评价

评测阶段是 AGENTVERSE 的最后一个环节，对于下一轮的小组构成调整和提升起到至关重要的作用。在这个阶段，奖励反馈机制 $R$ 评估当前状态 $s_{new}$ 与期望目标 $g \in G$ 之间的差距，并给出口头反馈 $r = R(s_{new}, g)$ ，解释为什么当前状态仍然不令人满意并提供建设性建议讨论下一轮如何改进。请注意，奖励反馈机制 $R$ 可以由人类定义（在人机循环设置中），也可以由自动反馈模型定义，具体取决于实现。

如果确定目标 $g$ 尚未达到，则奖励反馈 $r$ 循环回到初始阶段，即专家招募。在下一轮中，专家招募阶段将利用该反馈 $r$ 结合初始目标 $g$ 来调整小组的构成，旨在演化出更有效的多智能体小组，以供后续决策和行动执行。

3. 实验

为了证明 AGENTVERSE 能够指导自治智能体群体比单个智能体更有效地协作完成任务，我们对基准任务进行了定量实验，并对更复杂和实际的应用进行了案例研究。在第 3.1 节详细阐述的定量分析中，我们主要在分别需要不同能力的各种任务上评估 AGENTVERSE。案例研究（第 3.2 节详述）展示了多主体团队协作解决复杂实际场景的能力。值得注意的是，我们观察到某些社会行为是从这些协作努力中产生的。关于这些紧急行为的详细讨论将在后续部分中介绍，如第 4 节中所引用。

3.1 定量分析

3.1.1 设置

模型我们的自主代理由两种不同的 LLM 提供支持：GPT-3.5-Turbo-0613 和 GPT-4-0613。

数据集和评估指标我们对多智能体组的评估包括需要对话、数学计算、逻辑推理和编码能力的任务：

对话：我们使用两个数据集。第一个是对话响应数据集 FED（Mehri & Eskénazi，2020），其中给定多轮聊天历史记录，代理需要生成下一次聊天。继之前的工作（Madaan 等人，2023）之后，我们利用 GPT-4 作为评估器，对模型生成的响应与人类编写的响应进行评分，并报告模型的获胜率。第二个数据集是 Commongen-Challenge（Madaan 等人，2023），这是一个约束生成数据集，其中给定 20 个概念，代理需要生成一个连贯且语法正确的段落，其中包含尽可能多的概念。我们报告所涵盖概念的平均百分比。
数学计算：我们利用 MGSM 的英语子集（Shi et al., 2023），它是 GSM-8k 的子集（Cobbe et al., 2021）。这是一个包含小学数学问题的数据集。我们报告正确答案的百分比。
逻辑推理：我们利用 BigBench 的逻辑网格谜题任务（Srivastava 等人，2022），其中包含需要多步骤逻辑推理的逻辑问题。我们报告准确性。
编码：我们利用 Humaneval（Chen 等人，2021），这是一个代码完成数据集，并报告 Pass@1 指标。

3.1.2 实验结果

性能分析在我们的实验中，单个代理（Single）根据给定的提示直接生成答案，而使用 AGENTVERSE 构建的多代理组（Multiple）以协作方式解决问题。如表 1 中的结果所示，无论使用 GPT-3.5-Turbo 还是 GPT-4，多代理组的性能始终优于单个代理。在初步实验中，我们观察到 GPT-3.5-Turbo 很难在逻辑网格谜题数据集上给出正确的推理结果，因此我们省略了 GPT-3.5-Turbo 的逻辑推理结果。
在这里插入图片描述

表 1：AGENTVERSE 在不同任务上的结果。在所有任务和两个模型上，多智能体组始终表现出比单智能体组有所改进。

在这些实验中，我们利用多智能体组内的垂直通信结构。正如我们在第 2.2 节中讨论的，垂直通信结构允许一个代理迭代地完善自己的解决方案，使其更适合这些需要给定解决方案精度的基准任务。在接下来的分析中，我们将对下一部分的通信结构进行全面的分析，说明为什么水平结构不适合这些任务。

协作决策分析 我们在 AGENTVERSE 中同时采用横向通信和纵向通信，并评估它们对多智能体组有效性的影响。我们观察到不同的沟通结构可以极大地影响协作决策的结果。具体来说，如表 2 所示，与垂直通信相比，水平通信显然不能促进数学计算任务 (MGSM) 的多智能体组内的有效决策。
在这里插入图片描述

表 2：MGSM 上不同通信形式的性能。

对代理通信记录的仔细分析表明，通信架构对于塑造决策结果至关重要。在水平通信中，代理以顺序方式进行通信。有时，代理人可能会提出有缺陷的解决方案或质疑前任代理人的正确主张。随后的特工往往不会纠正这种疏忽，而是遵循错误的建议。因此，多智能体组的性能落后于单个智能体的性能。相反，在垂直沟通中，代理同行同时提供对主要代理的初步解决方案的反馈。尽管某些代理可能会提供有缺陷的反馈，但大多数人的建设性批评通常会减轻这些错误，从而使主要代理能够保留其准确的解决方案。

然而，这并不意味着横向沟通本质上效率较低。结果表明，对于需要精确答案的任务，垂直沟通可能更合适。然而，正如我们将在后续部分中展示的那样，在咨询或多人合作游戏等背景下，不同的代理应该给出不同的解决方案或执行不同的操作，横向通信是更自然的选择。

3.2 案例研究

定量实验表明，在执行特定基准任务时，AGENTVERSE 组装的多智能体组可以有效优于单智能体组。然而，它并不能保证 AGENTVERSE 在更复杂和现实世界任务上的实用性。为了说明这一点，我们提出了一系列涵盖各种复杂任务的案例研究，如表 3 所示。这些场景强调了 AGENTVERSE 在动态环境中适应和有效协作的能力。在这里，我们描述每项任务，阐明协作过程，并讨论从每个案例中收集的结果和见解。本节中的实验如无明确说明，均基于GPT-4-0613 进行。
在这里插入图片描述

表 3：每种场景中的必要功能。

3.2.1 软件开发

任务描述 软件开发是一项复杂的协作工作，涉及不同的角色和职责。从编写底层代码的程序员，到优先考虑用户体验的用户界面 (UI) 设计师，再到确保软件可靠性的软件测试人员，专家们通力合作，增强和完善应用程序，确保其既符合功能又以用户为中心标准。本节演示 AGENTVERSE 如何组建具有不同专业知识的专家团队并促进协作迭代编码。

分析我们举例说明 AGENTVERSE 如何通过招募不同的协作专家代理来生成基于 Python 的计算器图形用户界面 (GUI)。图 2 直观地展示了开发过程的简明概述。
在这里插入图片描述

图 2：软件开发示例流程的图示。任务是用 Python 编写一个带有 GUI 的计算器。

当面对这项开发任务时，AGENTVERSE 招募了一个由三名评审员组成的团队，分别是软件工程师、用户体验设计师和软件测试员。在这种情况下，我们在协同决策阶段采用垂直沟通结构。多代理组确保全面覆盖软件开发方面。最初的软件迭代主要是功能性的，根据 UI/UX 专家建议的设计改进，产生了不同的颜色编码按钮。开发后，由另一个基于 GPT-4 的代理进行了评估。虽然评估者肯定了该软件的功能，但它强调了一个潜在的增强功能：完善键盘输入功能。根据此反馈，AGENTVERSE 启动了第二个开发周期，保留了相同的角色，因为它们针对此特定任务具有多功能性和全面性。

对多代理和单代理生成的应用程序进行比较分析，得出一些关键的观察结果。两个版本都成功实现了其核心功能：执行计算。然而，多智能体生产的计算器呈现出更加用户友好的界面，具有颜色区分、键盘输入和退格功能，以增强可用性。这些功能的实现得益于 AgentVerse 的多代理组中招募了不同身份的审稿人。这些审阅者根据求解器生成的代码提供各种建议。具体来说，这些视觉和用户体验优势可以追溯到 UI 设计师在讨论过程中提供的建议和评估人员在评估过程中提供的建议（附录D）。此外，软件测试人员给出了许多关于代码稳健性的建议。通过检查求解器生成的代码（附录 D），我们发现多智能体团队生成的代码比单个智能体生成的代码具有更好的异常处理过程。

3.2.2 咨询

任务描述 咨询涵盖一系列专业服务，旨在提供专家建议、指导和量身定制的解决方案，以解决个人、组织或企业面临的特定挑战。目标是促进明智的决策并提高整体绩效。通过这个实验，我们的目标是展示 AGENTVERSE 策划多样化的专家代理团队的能力，确保提供全面而细致的咨询。

分析 AGENTVERSE 的应用是通过一个代表性任务来演示的，其中多智能体组被询问：如果我想在俄亥俄州建造一个压缩氢存储站，请给我一些建议。图 3 直观地描述了多代理咨询流程。
在这里插入图片描述

图 3：咨询流程示例的图示。任务是对俄亥俄州建设压缩氢储存站提出一些建议。

在最初的迭代中，AGENTVERSE 招募了三名特定领域的专家：一名化学工程师、一名土木工程师和一名环境科学家，在本例中，我们让智能体以水平结构进行交流。虽然对多智能体和单智能体系统的初始输出进行直接比较可能表明后者涵盖的范围更广，但更深入的检查揭示了深度上的差异。尽管单一代理在第 0 轮提供了更长的考虑因素列表，但它往往很肤浅。例如，两个版本都涉及位置选择：单智能体一般建议 “找到最佳位置”，而多智能体系统则进行更深入的研究，建议采取诸如 “评估场地土壤特性以确保储罐稳定性” 等行动。

在第 1 轮，AGENTVERSE 招募了与第 0 轮不同的专家，从而为问题引入了新的视角。因此，在流程结束时，多智能体的咨询不仅涵盖比单智能体对应的范围更广的范围（在图 3 中标记为红色），而且还为每个考虑因素提供了更丰富的细节。要更详细地了解代理交互和决策流程，请参阅附录 D 中的图表。

3.2.3 游戏玩法

任务描述 视频游戏等复杂的虚拟环境带来了多方面的挑战，突破了自主代理所能实现的界限。《我的世界》是一款沙盒游戏，由于其无限的创意机会、复杂的制作流程以及战略规划的需要，成为了理想的测试平台。游戏的机制和大量的可制作物品集合要求代理不仅要执行任务，还要计划、协调和适应动态场景。在我们的实验中，我们利用 AGENTVERSE 将多个 Voyager 代理（Wang 等人，2023a）引入 Minecraft world。我们的主要目标是让这些代理合作制作特定的物品。附录 B 中讨论了该实验的详细设置。通过此设置，我们旨在研究 AGENTVERSE 在协调多个代理方面的能力，使它们能够在复杂的环境中共享知识、资源和协作。

分析我们实验中的一个说明性案例涉及三个代理，他们试图制作一个书架，这是 Minecraft 的多步骤可制作物品之一，如图 4 所示。考虑到现实游戏中一致的玩家身份，该实验绕过了 AGENTVERSE 中的专家招募阶段特。相反，我们将代理指定为经验丰富的 Minecraft 玩家。如图 4 所示，制作书架的复杂过程至少需要九个基本步骤，包括收集木材和皮革等材料、制作书籍等中间物品，以及最后组装书架。代理能够将这个总体目标分解为正确的子任务，并策略性地分配它们以并发执行。
在这里插入图片描述

图 4：涉及三个代理制作一个书架的协作过程的图示。该过程首先由智能体深思熟虑并将最终目标分解为更小的子任务。每个代理都被分配了要执行的特定任务。然后，它们的执行结果和环境的当前状态被传递给评估器。重复整个过程，直到实现制作书架的目标。

一个值得注意的观察是智能体的适应性和合作本能。例如，在最初的几轮中，当 Alice 努力消灭制革所需的三头牛时，完成指定任务的 Bob 注意到 Alice 在沟通过程中遇到的困难，从而介入提供帮助。这种紧急行为至关重要，突显了智能体在面临意外挑战时的稳健性和灵活性。代理之间的通信和协调对于此类协作至关重要，如图 17 所示，完整的通信事务可以在附录 D 中找到。下一节将更深入地探讨这些新兴的协作行为。

4. 多智能体组内的紧急行为

在第 3 节介绍的实验中，我们观察到个体代理在协作解决问题的过程中表现出一些社交行为。在本节中，我们将重点从整个群体转移到个体代理，并对他们的紧急行为进行全面分析。

我们将观察到的突发社会行为分为两个主要方面。第一个包括积极的行为，例如志愿者行为和监管行为，这些行为往往会提高多主体群体的有效性。另一方面，我们也识别出一些有害行为，例如破坏性行为，这可能会带来潜在的风险。请注意，这些行为出现在第 3.2.1 至 3.2.3 节中提到的大多数情况下。为了清楚起见，我们使用《我的世界》中的游戏作为代表案例来说明这些行为。

4.1 志愿者行为

人类的志愿者行为是指旨在增进他人福祉的行为（Omoto & Snyder，1995；Mowen & Sujan，2005）。在多智能体群体中，我们观察到类似的行为出现，智能体愿意贡献时间，协调资源分配，并提供协作援助。这些行为凸显了座席为推进团队目标和优化整体效率而采取的积极主动的方法。

时间贡献 我们观察到代理人能够对计划的效率提出建设性的批评。他们经常批评同事提出的低效计划，主动贡献自己未分配的时间来加强集体努力。

我们在图 5.(1a) 中给出了一个例子，其中 Alice 和 Bob 需要合作制作 2 张纸，这需要 3 根甘蔗作为原材料。最初，Alice 提议她去收集甘蔗，而 Bob 则等待材料准备好。然而，这个计划并不理想，因为它为 Bob 提供了业余时间。 Bob 认识到效率低下，建议双方同时收集甘蔗，在双方同意的情况下加快任务完成速度。
在这里插入图片描述

图 5：Minecraft 中的代理交互中出现的属性示例。

资源贡献 我们的分析表明，代理可以有效地与其他人协调，特别是在最终组装阶段。此阶段需要整合不同代理收集的材料，并且单个代理应承担组装任务。代理可以与其他人协调安排谁将分发材料以及谁将收集所有收集到的材料并制作目标物品。

如图 5.(1b) 所示，在制作 2 张纸的任务结束时，Alice 收集了所有原材料（甘蔗），而 Bob 则拥有制作纸张所必需的制作台。在决策阶段的沟通中，Alice 建议将她的材料扔在地上，将其转移给 Bob。这将使 Bob 能够检索它们并将其用于预期的制作过程。通过这种信息交换，他们建立了共同的理解：Alice 继续放下材料，Bob 耐心地取回它们，最终成功完成目标项目。

协助贡献 在协作任务执行过程中，我们观察到智能体在完成各自的任务后，会积极向同伴提供支持，从而加快整体任务的解决。

如图 5 (1c) 所示，在特定时间步，Alice 和 Bob 已经成功完成了分配给他们的子任务，而 Charlie 仍在努力收集三块皮革。作为回应，在协作决策阶段，Alice 和 Bob 提议协助查理收集皮革，从而加快任务进度。它强调了代理如何自愿贡献自己的能力和努力来协助其他代理，最终加速实现他们的集体目标。

4.2 合规行为

人类社会的一个普遍现象是社会从众，它是指个体调整自己的行为以符合群体认知规范的倾向（Cialdini & Goldstein，2004；Cialdini & Trost，1998）。在解决任务的过程中，特别是在《我的世界》中，我们注意到多智能体群体中也存在类似的现象，我们将其称为从众行为。当代理协作实现共同目标时，可能会出现一个代理偏离分配任务的情况。不过，这一点在随后的决策阶段很快得到纠正。在此阶段，其他智能体可能会表达对偏差的不满，并强调保持专注于共同目标的重要性。然后，对偏差负责的代理可以承认自己的错误，并重新调整其努力以与团队的目标保持一致。

图 5.(1c) 展示了这种一致性行为的一个示例。在这个例子中，这三个代理的子任务都是收集三块皮革。然而，在执行阶段，Charlie 偏离了方向，开始制作对任务没有直接贡献的物品。在随后的决策阶段，Alice 和 Bob 注意到 Charlie 的偏差，并批评他缺乏对共同目标的关注。Charlie 承认了自己的错误，重新调整了方法，重新专注于手头的任务。多智能体群体内的整合行为使其能够保持专注并朝着共同目标努力。

4.3 破坏性行为

在我们对多智能体协作动态的检查中，我们发现了某些被证明会适得其反甚至可能有害的行为。本节介绍这些行为，分析它们在多代理场景下的潜在风险。

代理销毁 如图 5.(3a) 所示，在制作任务的最后阶段，在某些情况下，代理在其任务中并没有与其他代理同步完成第 4.1 节中描述的完成材料的分配。为了效率，可能会杀死其他代理来获取他们的材料，而不是等待他们自愿分发。

环境破坏 如图 5.(3b) 所示，当智能体负责制作书籍时，它偶尔会绕过收集原材料的过程。相反，代理识别并随后破坏了整个村庄的图书馆并获取了掉落的书籍。

值得注意的是，随着自主嵌入式代理的进步，在现实场景中部署代理已成为可能。然而，这些突发的危险行为可能会带来风险，特别是当人类参与协作或工作过程时。因此，设计防止智能体采取此类危险行为的策略是未来研究的一个重要问题。

5. 相关工作

自主代理 追求创建能够在现实世界环境中智能操作而无需人类参与的自主代理，一直是人工智能历史上的一个持久目标（Wooldridge & Jennings，1995；Minsky，1988；Bubeck 等人，2023）。LLMs（Touvron 等人，2023a；OpenAI，2023）为实现这一目标开辟了更多新的机会。这些 LLMs 拥有卓越的理解、推理和生成能力，允许自主代理（Richards 等人，2023；Nakajima，2023） ; Reworkd, 2023）利用它们作为处理日益复杂的场景的骨干。然而，即使这些自主代理已经表现出相当大的能力，它们仍然缺乏某些基本的类人认知能力。因此，一些研究设计了赋予代理的外部机制包括反射（Yao et al., 2023b；Shinn et al., 2023）、任务分解（Wei et al., 2022b；Yao et al., 2023a）和工具利用/创建（Schick et al., 2023；秦等人，2023a，b； Qi et al., 2023b) 能力。这些进步使当前的自主代理更接近实现通用人工智能。

多智能体系统 在人类社会中，由个体组成的组织良好的群体往往能够协同处理更大的工作量，以更高的效率和效果完成复杂的任务。在人工智能领域，研究人员从人类社会中汲取灵感，旨在通过研究多智能体系统（MAS）（Stone&Veloso，2000）来利用个人之间的合作来提高工作效率和有效性，在本文中也称为多智能体组。多智能体群体以分布式、并行的方式协同决策并执行相应的动作，以实现共同的目标，从而显着提高工作效率和效果。然而，多智能体群体中的主要问题是如何相互通信以动态分配任务并提高工作效率和效果。随着 LLMs 的进步，LLMs 驱动的自主代理（Richards & et al., 2023; Nakajima, 2023; Reworkd, 2023）拥有更强的智能和自主能力，这可能有助于缓解这个问题。因此，研究将代理组装作为一个群体（Li 等人，2023 年），并专注于探索他们合作的潜力。 Park 等人（2023）发现合作行为在一组智能体中自主出现，Du 等人（2023）;王等人（2023b）;张等人（2023a）;钱等人（2023a）;Chan et al. （2023）进一步利用他们的合作来更好地完成推理任务。基于这些发现，我们进一步提出了一个名为 AGENTVERSE 的框架。AGENTVERSE 可以利用群体合作来处理更复杂的场景，并根据当前状态动态调整其组成，以便做出最佳决策和执行。

6. 限制和未来工作

在这项工作中，我们引入了 AGENTVERSE，它有助于多个自主智能体模拟人类群体来完成任务，并讨论智能体在此过程中出现的社交行为。 AGENTVERSE 是一次进阶的尝试；因此，AGENTVERSE 中的一些模块仍然可以改进，也有许多有希望的问题/方向值得探索。在本节中，我们将深入研究这些方面以进一步说明。

更强大的代理 在目前的研究中，我们没有使用像 AutoGPT 和 BabyAGI 这样的先进代理；相反，我们为 LLMs 配备了基本的会话记忆作为主要代理。 AGENTVERSE 可以轻松推广到具有更强大功能的代理。我们已经使用基本代理展示了 AGENTVERSE 的潜力，我们未来的工作之一将集中于将更高级的代理集成到框架中。

更具挑战性的场景 由于前面提到的单个自主代理的局限性，将单个代理部署到现实场景中仍然具有挑战性。随着嵌入式代理技术的进步，我们可以利用 AGENTVERSE 部署更高效的多代理组，以适应需要广泛协作的更真实的场景，例如建筑和多机器人系统。

代理之间的多方通信 目前提出的由大型语言模型（LLM）支持的自主代理（Richards & et al., 2023; Nakajima, 2023; Reworkd, 2023; Wang et al., 2023a）拥有出色的指令理解能力（Wei等人，2022a；Stiennon 等人，2020）。这使它们能够遵循给定的人类指令并在一对一（人对人工智能）场景中完成任务。然而，当面对更复杂的通信场景时，比如多方通信（Wei et al., 2023）场景 4，需要确定何时发言、发言内容的能力。尽管当前的自主代理具有令人印象深刻的能力，但它们尚未实现与人类相当的理解或认知机制来有效地确定何时说话，因为它们只接受了必须说话的场景的训练。这导致在 AGENTVERSE 框架内的协作决策步骤中代理之间的通信困难。因此，有两个方向值得探索：

设计动态通信结构：为了解决上述问题，我们手动将第 2.2 节中的两种不同的通信结构分配给多代理组，以确定它们的目标和发言顺序。最近，还有其他工作（Du et al., 2023；Qian et al., 2023a；Wang et al., 2023b；Chan et al., 2023）提出针对不同任务的不同通信结构以改进决策。然而，这些结构设计方法往往过于特定于任务。探索一种更通用、可根据任务需求和当前状态动态调整的通信结构是进一步研究的一个有希望的方向。
开发智能体的通信能力：解决通信挑战的最重要方法是设计外部机制或预先训练的 LLM，使智能体能够自主地与环境（包括其他智能体）交互。这种环境感知代理长期以来一直是嵌入式人工智能的目标（Ahn et al., 2022; Driess et al., 2023），这是一个有前途的探索方向。

多智能体组的效率 直观地说，与单个智能体相比，多智能体系统应该提高有效性和效率。然而，确定多智能体系统可以体现其效率优势的任务并非易事。基准任务应该满足几个标准。首先，任务应具有足够的复杂性。对于相对简单的任务，例如解决小学数学问题，单个智能体可能会表现出更高的效率——这一概念适用于智能体和人类。其次，任务应该有一个明确且易于评估的目标。在软件开发或咨询等环境中，描述任务完成情况可能不明确，从而使效率比较变得复杂。第三，决定论是可取的。例如，在《我的世界》这样的游戏中，尽管有明确的目标，但游戏环境固有的随机性可能会影响结果。例如，虽然一个代理可能会快速找到奶牛，但多代理系统可能找不到任何奶牛。

设计一个针对多智能体系统量身定制的基准，在复杂性和评估清晰度之间取得平衡将是有益的。我们热衷于探索多智能体系统固有的效率优势。

利用紧急行为并缓解安全问题 在第 4 节中，我们确定了紧急积极行为，包括志愿服务和监管行为。探索在多智能体群体合作过程中增强这些行为的方法是一个有前途的方向。此外，我们还观察到代理人为了更有效地实现目标而诉诸伤害其他代理人或环境的情况。解决这个问题至关重要，特别是当代理部署在现实场景中并与人类协作时。

7. 结论

在本文中，我们介绍了 AGENTVERSE，这是一种受人类群体动力学启发的多智能体协作的新颖框架。通过将协作过程分为四个不同的阶段，AGENTVERSE 模仿了人类群体解决问题的程序。我们的定量实验巩固了 AGENTVERSE 的优点，展示了与单个代理相比，它在需要不同功能的各种任务中具有更好的性能。此外，通过我们在软件开发、咨询和 Minecraft 游戏等不同场景中的案例研究，我们提出的框架的多功能性和潜在好处是显而易见的。

特别令人感兴趣的是在 AGENTVERSE 下的多智能体协作过程中观察到的紧急行为。这些行为，从有益的志愿者和从众行为到潜在有害的破坏性行为，为自主代理协作的动态提供了深刻的见解。我们关于利用积极行为和减轻消极行为的讨论为提高多智能体系统的协作能力提供了一条有希望的道路。

未来，随着通用人工智能领域的不断发展，多智能体协作的动态将变得更加关键。 AGENTVERSE 可能有助于朝这个方向进一步探索，我们相信其原理可以进一步扩展和细化，以适应更广泛的任务和场景。我们期待看到社区与 AGENTVERSE 的互动以及它可能激发的创新。

A. 定量实验的配置

专家招募 对于对话响应、代码完成和约束生成等任务，系统招募了 4 名智能体。对于数学推理任务，我们将代理数量限制为两个。这一决定是基于我们的观察，即数学推理任务审稿人数量的增加与他们提出错误批评的可能性较高相关，从而导致求解器得出错误的解决方案。这一观察结果及其含义将在 3.1 节中讨论。目前，我们为每项任务预先定义了专家的数量。我们也在寻找一种方法来自动执行此决策。

协作决策 参考我们在第 2.2 节和第 3.1 节中的讨论，结果表明垂直结构是获得准确基准结果的最佳选择。我们让一个智能体作为求解器，让三个智能体作为审阅者，完成对话响应、代码完成和约束生成的任务。为了进行数学推理，配置被简化为仅包含一个求解器与一名审阅者配对。

动作执行 由于本研究中的基准测试不需要与外部环境进行交互，因此跳过了该阶段，并将多智能体组给出的解决方案作为新的环境状态提供给评估模块。

评估为了促进反馈循环，代理的任务是扮演评估者的角色。该代理提供初始问题 $p$ 和协作决策阶段做出的决策 $A$ ，负责确定这些决策的正确性。如果决策被确定为错误，反馈将被引导回专家招聘阶段。如果决策满足准确性标准，则将其确定为 $p$ 的最终答案。虽然我们当前的配置采用代理进行评估，但我们承认人类评估者的潜力，并打算将此类实验纳入未来的努力中。

B. Minecraft 实验细节

在本节中，我们将解释我们在 Minecraft 上进行的实验的一些实现细节（第 3.2.3 节）。

专家招募 正如第 3.2.3 节所述，现实世界的游戏场景需要多轮复杂的沟通和协调，通常有一组一致的团队成员。因此，当使用 AGENTVERSE 来模拟游戏时，我们绕过了自动专家招募阶段，并手动将每个代理分配为 “经验丰富的Minecraft玩家”。

协作决策 对于多人游戏，横向通信范式受到青睐。它适合每个代理独立制定计划的环境，这与需要单一解决方案的传统基准任务不同。代理被设置为按照预定的顺序进行通信，一直持续到达成共识为止。如果代理发现小组已就任务分配达成共识，我们会让代理在其响应末尾附加一个特殊标记 “[END]”。

在达成共识后，辅助代理的任务是从整个通信记录中推断出每个代理的具体分配。然后，将提取的信息作为 Voyager 代理的输入，以通知其分配的任务。

动作执行 我们在共享的 Minecraft 环境中实例化多个 Voyager 代理。这里简单介绍了 Voyager 代理，感兴趣的读者可以参考 Wang 等人的文章 (2023a) 以获得更详细的说明。

Voyager 代理擅长在 Minecraft 中导航。收到任务后，它首先将其分解为一组可管理的子任务。例如，如果分配任务 “杀死 3 头牛”，智能体可能会将其分解为连续的子目标，例如：[打 2 棵树、制作 4 块木板、制作 1 根棍子、制作 1 个工作台、制作 1 个木剑、杀死 3 头牛]。然后，代理依次尝试完成每个子任务。

我们采用官方存储库中可用的检查点 5，并使用 GPT-4-0314 作为 Voyager 代理的主干 LLM，以与 Wang 等人保持一致（2023a）。一旦代理完成自己的任务，或者所有代理达到五次尝试的上限，任务执行阶段就会终止，评估阶段就会开始。

评估我们直接利用每个代理的库存和已完成或失败的子任务作为反馈。

C. 提示

我们在图 6 到图 9 中列出了第 3.1 节中使用的提示。

D. 定性实验的例子

在本节中，我们将深入研究具体示例来说明本文中讨论的实验过程。对于每个实例，我们将单代理方法与多代理方法并列。具体来说：

图10 描述了开发计算器的过程。图 11 和图 12 分别显示了单智能体和多智能体组生成的代码。
对于项目咨询，我们提供使用横向通信的单代理和多代理方法。这些可以在图 13 和 14 中看到。
类似地，图 15 和 16 显示了单代理和多代理项目咨询，但采用了多代理垂直通信结构。
最后，图 17 提供了对三个代理在 Minecraft 中协作制作书架的过程的深入了解。