Large Language Model based Multi-Agents: A Survey of Progress and Challenges （基于大语言模型的多智能体：进展与挑战综述）

最新推荐文章于 2025-04-10 12:30:09 发布

星夜Zn

最新推荐文章于 2025-04-10 12:30:09 发布

阅读量755

点赞数 4

分类专栏：文献学习文章标签：语言模型人工智能自然语言处理论文阅读笔记

本文链接：https://blog.csdn.net/qq_29868553/article/details/144177132

版权

文献学习专栏收录该内容

36 篇文章

订阅专栏

在这里插入图片描述

原文地址

Abstract

大型语言模型（LLM）在广泛的任务中取得了显着的成功。由于LLM令人印象深刻的规划和推理能力，它们已被用作自动执行许多任务的自治代理。近年来，基于LLM的多智能体系统在将一个LLM作为单个规划或决策智能体的基础上，在复杂问题求解和世界仿真方面取得了长足的进步。为了向社区提供这个动态领域的概述，我们提出了这项调查，以提供基于LLM的多智能体系统的基本方面以及挑战的深入讨论。我们的目标是让读者对以下问题获得实质性的见解：基于LLM的多代理模拟哪些领域和环境？这些代理人是如何分析的，他们如何沟通？哪些机制有助于提高代理人的能力？对于那些有兴趣深入研究这一领域的人，我们还总结了常用的数据集或基准，以便他们方便地访问。为了让研究人员了解最新的研究，我们维护了一个开源的GitHub存储库，致力于概述基于LLM的多智能体系统的研究。

1 Introduction

大型语言模型（LLM）最近在达到与人类相当的推理和规划能力方面表现出了非凡的潜力。这种能力与人类对能够感知周围环境、做出决策并采取相应行动的自主代理的期望完全一致[Xi等人，2023年;伍德里奇和詹宁斯，1995年;罗素和诺维格，2009年;郭等人，2023; Liang等人，2023年]的规定。因此，基于LLM的代理已经被研究并被快速开发以理解和生成类人指令，促进在广泛的环境中的复杂交互和决策[Yao等人，2023年; Shinn等人，2023年; Li等人，2023 d号文件]。及时的调查论文系统地总结了基于LLM的代理的进展，如在工作中看到的[Xi et al.，2023; Wang等人，2023 b年]

基于LLM的多智能体（Multi-Agents）是在基于LLM的单个智能体的启发性能力的基础上，提出的一种基于LLM的多智能体（Multi-Agents）模型，利用了多个智能体的集体智能、专业化的特征和技能。与使用单个LLM驱动的代理的系统相比，多代理系统通过以下方式提供了高级功能：1）将LLM专门化为各种不同的代理，每个代理具有不同的功能; 2）使这些不同的代理之间能够进行交互，以有效地模拟复杂的真实世界环境。在此背景下，多个自主代理人协作参与计划、讨论和决策，反映了人类在解决问题任务中的协作性质。这种方法充分利用了LLM的交际能力，利用了他们生成用于交流的文本并对文本输入做出反应的能力。此外，它还利用了LLM在各个领域的广泛知识和他们专门从事特定任务的潜在潜力。最近的研究已经证明了在利用基于LLM的多智能体来解决诸如软件开发之类的各种任务方面的有希望的结果[Hong等人，2023年; Qian等人，2023]，多机器人系统[Mandi等人，2023; Zhang等人，2023 c]，社会模拟[Park等人，2023年; Park等人，2022]，政策模拟[肖等，2023年; Hua等人，2023]，以及游戏模拟[Xu等人，2023 c; Wang等人，第2023条c款]。由于这一领域的跨学科研究性质，它吸引了各种各样的研究人员，从人工智能专家扩展到社会科学、心理学和政策研究领域。如图1所示，研究论文的数量正在迅速增加（受到[Gao et al.，2023 b]），从而扩大了基于LLM的多Agent研究的影响。尽管如此，早期的工作是独立进行的，导致缺乏一个系统的审查，以总结他们，建立该领域的全面蓝图，并审查未来的研究挑战。这突出了我们的工作的重要性，也是本文的动机，致力于研究基于LLM的多智能体系统。

我们希望我们的调查能够为LLM的研究和开发以及更广泛的跨学科研究做出重大贡献。读者将对基于LLM-MA的多智能体系统（LLM-MA）有一个全面的了解，掌握建立基于LLM-MA的多智能体系统所涉及的基本概念，并掌握这一动态领域的最新研究动态和应用。我们认识到，这一领域正处于早期阶段，并正在迅速发展与新的方法和应用。为了提供可持续的资源来补充我们的调查报告，我们维护了一个开源的GitHub资源库。我们希望我们的调查能够激发该领域的进一步探索和创新，以及在广泛的研究学科中的应用。

为了帮助来自不同背景的个人了解LLM-MA技术，并通过解决未解决的问题来补充现有的调查，我们以以下方式组织了我们的调查报告。在第2节中，我们列出了背景知识，然后提出了一个关键问题：LLM-MA系统是如何与协作式任务解决环境相协调的？为了回答这个问题，我们在第3节中提出了一个定位，区分和连接LLM-MA系统各个方面的综合方案。我们深入探讨这个问题，通过讨论：1）代理环境接口，其中详细说明了代理如何与任务环境交互; 2）代理分析，其中解释了LLM如何表征代理以特定方式表现; 3）代理通信，其中检查代理如何交换消息和协作;（4）主体能力获取，探索主体如何发展自身能力以有效解决问题。回顾有关LLM-MA研究的另一个视角是它们的应用。在第4节中，我们将当前的应用分为两大类：用于解决问题的多代理和用于世界模拟的多代理。为了指导个人识别适当的工具和资源，我们提出了用于研究LLMMA的开源实现框架，以及第5节中的可用数据集和基准。基于前面的总结，我们在第6节中开始讨论未来的研究挑战和机遇。结论总结见第7节。

在这里插入图片描述

图1：基于LLM的Multi-Agent研究领域的上升趋势。对于问题解决和世界模拟，我们将当前的工作分为几个类别，并以3个月为间隔计算不同类型的论文数量。每个叶节点上的数字表示该类别中的论文计数。

2 Background

2.1 Single-Agent Systems Powered LLMs

在[Weng，2023]中的讨论之后，我们首先概述了基于LLM的单药系统的能力，以此来介绍背景。

Decision-making Thought：该术语表示基于LLM的代理在提示的引导下将复杂任务分解为较小的子目标的能力[Khot等人，2023]，系统地思考每一部分（有时探索多条路径）[Yao et al.，2023]，并从过去的经验中学习[Shinn等人，2023年]更好地对复杂任务进行决策。这种能力增强了基于LLM的单个Agent的自主性，提高了其解决问题的有效性.

Tool-use: 基于LLM的代理的工具使用能力允许它们利用外部工具和资源来完成任务，增强它们的功能能力，并在多样化和动态的环境中更有效地操作[Li等人，2023 d; Ruan等人，2023; Gao等人，第2023 b号决议]。

Memory: 这种能力指的是基于LLM的代理进行上下文学习的能力[Dong等人，2023a]作为短存储器或外部载体数据库[刘易斯等人，2021]作为长时间的存储器以在延长的时间段内保存和检索信息[Wang等人，第2023b号决议]。这种能力使得单个基于LLM的代理能够保持上下文一致性并增强从交互中学习。

2.2 Single-Agent VS. Multi-Agent Systems

由LLM增强的单代理系统已经显示出令人鼓舞的认知能力[Sumers等人，2023年]的规定。制度建设的核心是构建制度的内在机制和与外部环境的互动关系。相反，LLM-MA系统强调不同的主体轮廓、主体间的交互和集体决策过程。从这个角度来看，通过多个自治Agent的协作，可以处理更多的动态和复杂的任务，每个Agent都具有独特的策略和行为，并参与彼此的通信。

3 Dissecting LLM-MA Systems: Interface, Profiling, Communication, and Capabilities

剖析LLM-MA系统：接口、分析、通信和功能

在本节中，我们将深入研究LLM-MA系统的复杂性，其中多个自治代理参与协作活动，类似于解决问题场景中的人类群体动力学。我们要解决的一个关键问题是，这些LLM-MA系统是如何与其运行环境和其设计要实现的集体目标相一致的。为了阐明这一点，我们在图2中给出了这些系统的一般架构。本文分析了这些系统的运行框架，重点讨论了四个关键方面：Agent-环境接口、Agent描述、Agent通信和Agent能力获取。

在这里插入图片描述

3.1 Agents-Environment Interface

操作环境定义了LLM-MA系统部署和交互的特定上下文或设置。例如，这些环境可以类似于软件开发[Hong等人，2023]，游戏[Mao等人，2023]，以及各种其他领域，例如金融市场[Li等人，2023 g]或甚至社会行为建模[Park等人，2023年]的规定。基于LLM的智能体感知环境并在环境中行动，环境反过来影响智能体的行为和决策。例如，在Werewolf Game模拟中，沙盒环境设置了游戏的框架，包括从白天到晚上的转换、讨论时段、投票机制和奖励规则。狼人和预言家等代理执行特定的操作，如杀死或检查角色。在这些操作之后，代理将收到来自环境的反馈，通知他们游戏的当前状态。这些信息指导代理人随着时间的推移调整他们的策略，对不断发展的游戏玩法和与其他代理人的互动做出响应。AgentsEnvironment接口指的是代理与环境交互和感知环境的方式。正是通过这个接口，代理人才能了解他们的环境，做出决策，并从他们的行动结果中学习。我们将LLM-MA系统中的当前接口分为三种类型：沙盒、物理和无，如表1中所示。沙盒是指由人构建的一个模拟或虚拟的环境，在这个环境中，Agent可以更自由地进行交互，并尝试各种动作和策略。这种接口广泛应用于软件开发（代码解释器作为模拟环境）[Hong et al.，2023]、游戏（使用游戏规则作为模拟环境）[Mao等人，2023]等。物理是一个真实世界的环境，其中代理与物理实体交互，并服从真实世界的物理和约束。在物理空间中，行为人通常需要采取能够产生直接物理结果的行动。例如，在诸如扫地、做三明治、打包杂货和整理橱柜之类的任务中，机器人代理需要迭代地执行动作、观察物理环境并不断地改进它们的动作[Mandi等人，2023年]的规定。最后，“无”是指没有特定外部环境，并且代理不与任何环境交互的方案。例如，许多应用[Du等人，2023年;熊等人，2023年; Chan等人，2023]利用多个代理人对一个问题进行辩论以达成共识。这些应用程序主要关注代理之间的通信，而不依赖于外部环境。

3.2 Agents Profiling

在LLM-MA系统中，代理人由他们的特征，动作和技能定义，这些都是为满足特定目标而量身定制的。在不同的系统中，代理承担不同的角色，每个角色都有包含特征、能力、行为和约束的全面描述。例如，在游戏环境中，代理可能被描述为具有不同角色和技能的玩家，每个角色和技能对游戏目标的贡献不同。在软件开发中，代理可以担当产品经理和工程师的角色，每个人都有指导开发过程的职责和专业知识。同样，在辩论平台上，代理人可以被指定为支持者、反对者或评判者，每个人都有独特的功能和策略来有效地履行他们的角色。这些配置文件对于定义代理在其各自环境中的交互和有效性至关重要。表1列出了最近LLM-MA工作中的代理配置文件。

关于Agent分析方法，我们将其分为三种类型：预定义、模型生成和数据派生。在预定义情况下，代理配置文件由系统设计人员明确定义。ModelGenerated方法通过模型创建代理配置文件，例如，大型语言模型。数据衍生方法涉及基于预先存在的数据集构建代理配置文件。

3.3 Agents Communication

LLM-MA系统中智能体之间的通信是支持集体智能的关键基础设施。本文从三个方面对Agent通信进行了剖析：1）通信范式：Agent之间的交互方式和方法; 2）通信结构：多Agent系统中通信网络的组织和体系结构; 3）Agent之间交换的通信内容。

**沟通范式：**目前LLM-MA系统主要采用三种沟通范式：合作，辩论和竞争。合作代理人为一个或多个共同的目标而共同努力，通常交换信息以加强集体解决方案。当代理人进行争论性互动、提出和捍卫自己的观点或解决方案并批评其他人的观点或解决方案时，就会采用辩论范式。这种范式对于达成共识或更精确的解决方案是理想的。竞争代理人为自己的目标而工作，这些目标可能与其他代理人的目标相冲突。

**通信结构：**图3示出了LLM-MA系统中的四种典型通信结构。分层通信是分层结构的，每个级别的代理都有不同的角色，并且主要在其层内或与相邻层进行交互。[Liu例如，2023]介绍了一种称为动态LLM-Agent网络（DyLAN）的框架，该框架将代理组织在多层前馈网络中。这种设置促进了动态交互，结合了推理时间代理选择和早期停止机制等功能，这些功能共同提高了代理之间的合作效率。分散式通信在对等网络上运行，其中代理直接相互通信，这是世界仿真应用中常用的结构。集中式通信涉及协调系统通信的中央代理或一组中央代理，其他代理主要通过该中央节点进行交互。共享消息池由MetaGPT提出[Hong等人，#20320;提高沟通效率。这种通信结构维护了一个共享的消息池，其中代理根据其配置文件发布消息并订阅相关消息，从而提高了通信效率。

**通信内容：**在LLM-MA系统中，通信内容通常采用文本形式。具体内容变化很大，取决于具体应用。例如，在软件开发中，代理可以就代码段彼此通信。在《狼人》这类游戏的模拟中，特工们可能会讨论他们的分析、怀疑或策略。

在这里插入图片描述

3.4 Agents Capabilities Acquisition

Agent能力获取是LLM-MA中的一个关键过程，它使Agent能够动态地学习和进化。在这一背景下，有两个基本概念：主体应该从中学习以提高其能力的反馈类型，以及主体调整自身以有效解决复杂问题的策略。

Feedback:
反馈涉及代理人收到的有关其行动结果的关键信息，帮助代理人了解其行动的潜在影响，并适应复杂和动态的问题。在大多数研究中，提供给代理的反馈是文本形式的。根据代理接收此反馈的来源，可将其分为四种类型。

1)来自环境的反馈，例如：从真实的世界环境或虚拟环境中[Wang等人，第2023 b号决议]。它普遍存在于大多数LLM-MA的问题解决场景中，包括软件开发（代理从代码解释器获得反馈），以及体现的多代理系统（机器人从真实世界或模拟环境获得反馈）。
2)Agent交互的反馈是指来自其他Agent的判断或来自Agent之间的通信的反馈。这在解决问题的场景中很常见，比如科学辩论，代理人通过交流学会批判性地评估和完善结论。在游戏模拟等世界模拟场景中，代理根据其他代理之间先前的交互来学习改进策略。
3)人的反馈直接来自于人，对于将多智能体系统与人的价值观和偏好相一致至关重要。这种反馈广泛用于大多数“人在回路”应用[Wang等人，2021年]的规定。
4）无。在某些情况下，不向代理提供反馈。这种情况经常发生在世界模拟工作中，这些工作侧重于分析模拟结果，而不是Agent的规划能力。在这种情况下，如传播模拟，重点是结果分析，因此，反馈不是系统的组成部分。

Agents Adjustment to Complex Problems:
为了增强它们的能力，LLM-MA系统中的代理可以通过三种主要的解决方案来适应。

1)记忆大多数LLMMA系统利用代理程序的内存模块来调整其行为。代理将来自先前交互和反馈的信息存储在其内存中。在执行行动时，他们可以检索相关的、有价值的记忆，特别是那些包含为类似的过去目标而成功行动的记忆，如[Wang et al.，第2023 b号决议]。这一进程有助于加强他们目前的行动。
2)自我进化。与基于记忆的解决方案中所见的仅依赖历史记录来决定后续行动不同，代理可以通过修改自身（例如改变其初始目标和规划策略）以及基于反馈或通信日志来训练自身来动态地自我进化。[Nascimento等人，2023]提出了一种自控制循环过程，使得多智能体系统中的每个智能体都能进行自管理，并能自适应动态环境，从而提高多智能体的协作效率。[Zhang等人，2023 b]引入了ProAgent，它可以预测队友的决策，并根据Agent之间的通信日志动态调整每个Agent的策略，促进相互理解，提高协同规划能力。[Wang例如，2023 a]讨论了通过通信学习（LTC）范例，其使用多智能体的通信日志来生成数据集以训练或微调LLM。LTC通过与环境和其他智能体的交互，使智能体能够不断地适应和改进，打破了情境学习或监督微调的限制，这些限制没有充分利用在与环境和外部工具的交互过程中接收到的反馈进行持续训练。自我进化使代理人能够自主调整他们的个人资料或目标，而不仅仅是从历史互动中学习。
3)动态生成。在某些情况下，系统可以在其操作期间动态地生成新的代理[Chen等人，2023 a; Chen等，第2023条c款]。此功能使系统能够有效地扩展和适应，因为它可以引入专门设计用于解决当前需求和挑战的代理。

随着LLM-MA规模的不断扩大，代理数量的不断增加，管理各种代理的复杂性不断增加，成为一个关键问题。代理人协调成为一个关键的挑战，并在[莫拉，2023; Dibia，2023]中开始受到关注。我们将在第6.4节中进一步讨论这一主题。

4 Applications

LLM-MA系统已被广泛应用。我们在表1中总结了两种应用：问题解决和世界模拟。我们在下面详细介绍这些应用程序。请注意，这是一个快速增长的研究领域，几乎每天都有新的应用出现。我们维护一个开源存储库来报告最新的工作。
在这里插入图片描述

表1：LLM-MA研究总结。我们目前的工作进行分类，根据他们的动机，研究领域和目标，并从不同的方面，代理环境接口，代理分析，代理通信和代理能力获取的每项工作进行详细说明。“-”表示本工作中未具体提及的特定元素。

4.1 LLM-MA for Problem Solving

使用LLM-MA解决问题的主要动机是利用具有专业知识的代理的集体能力。这些智能体作为个体，相互协作以有效地解决复杂的问题，如软件开发、实体化智能体、科学实验和科学辩论。下面将介绍这些应用示例。

4.1.1 Software Development

鉴于软件开发是一项复杂的奋进，需要产品经理，程序员和测试人员等各种角色的协作，LLM-MA系统通常设置为模拟这些不同的角色并协作以解决复杂的挑战。遵循软件开发的瀑布或标准化操作过程（SOP）工作流，代理之间的通信结构通常是分层的。代理通常与代码解释器、其他代理或人交互，以迭代地细化生成的代码。[Li例如，2023 b]首次提出了一种简单的角色扮演代理框架，利用两个角色的相互作用，实现基于一句话用户指令的自主编程。它提供了深入的“认知”过程的沟通代理。[Dong例如，2023 b]使LLM作为软件开发中的子任务的不同“专家”工作，自主协作以生成代码。而且，[Qian等人，2023]提出了一种用于软件开发的端到端框架，利用多个代理进行软件开发，而不需要结合高级的人类团队合作经验。[Hong例如，2023]首次引入了人工工作流洞察，以实现更可控和更有效的性能。它将标准作业程序编码为提示，以加强结构化协调。[Huang等人，2023 a]通过解决代码片段生成与软件开发的有效标准化操作过程（SOP）工作流之间的平衡问题，深入研究了基于多Agent的编程，Agent之间的通信结构通常是分层的。代理通常与代码解释器、其他代理或人交互，以迭代地细化生成的代码。[Li例如，2023 b]首次提出了一种简单的角色扮演代理框架，利用两个角色的相互作用，实现基于一句话用户指令的自主编程。它提供了深入的“认知”过程的沟通代理。[Dong例如，2023 b]使LLM作为软件开发中的子任务的不同“专家”工作，自主协作以生成代码。而且，[Qian等人，2023]提出了一种用于软件开发的端到端框架，利用多个代理进行软件开发，而不需要结合高级的人类团队合作经验。[Hong例如，2023]首次引入了人工工作流洞察，以实现更可控和更有效的性能。它将标准作业程序编码为提示，以加强结构化协调。[Huang等人，2023 a]通过解决平衡代码片段生成与有效的测试用例生成、执行和优化的问题，更深入地研究了基于多代理的编程。

4.1.2 Embodied Agents

大多数具体的代理应用程序固有地利用多个机器人一起工作，以执行复杂的现实世界的规划和操纵任务，如仓库管理与异构机器人的能力。因此，LLMMA可用于对具有不同能力的机器人进行建模，并相互协作以解决现实世界的物理任务。[Dasgupta等人，2023]首先探讨了使用LLM作为嵌入式代理的行动规划器的潜力。[Mandi等人，2023]介绍了RoCo，一种新的多机器人协作方法，使用LLM进行高级通信和低级路径规划。每个机械臂都配备了LLM，与反向运动学和碰撞检查合作。实验结果证明了RoCo在协作任务中的适应性和成功性。[Zhang等人，2023 c]介绍了CoELA，一个合作的语言代理，管理讨论和任务规划的LLM-MA设置。这种具有挑战性的环境具有分散控制，复杂的部分观察，昂贵的通信和多目标长期任务。[Chen例如，2023 d]研究了涉及大量机器人的场景中的通信挑战，因为由于长上下文，为每个机器人分配LLM将是昂贵且不切实际的。该研究比较了四种通信框架，集中式，分散式和两种混合模型，以评估其在协调复杂的多智能体任务的有效性。[Yu例如，2023]提出了多机器人协作视觉目标导航的CoNavGPT，将LLM集成为全局规划器，为每个机器人分配前沿目标。[Chen例如，2023 b]提出了一种基于LLM的共识寻求框架，该框架可以作为多机器人聚合任务的协作规划器。

4.1.3 Science Experiments

就像多个智能体扮演不同的专家并合作解决软件开发和智能体问题一样，多个智能体也可以用来组成一个科学团队进行科学实验。与以前的应用程序的一个重要区别在于人类监督的关键作用，由于科学实验的高费用和LLM代理人的幻觉。人类专家处于这些代理的中心，处理代理的信息并向代理提供反馈。[Zheng等人，2023]使用了多个基于LLM的代理，每个代理都专注于科学实验的特定任务，包括策略规划、文献检索、编码、机器人操作和实验室器具设计。所有这些智能体都与人类相互作用，共同优化复杂材料的合成过程。

4.1.4 Science Debate

LLM-MA可以被设置用于科学辩论场景，其中主体彼此辩论以增强诸如大规模多任务语言理解（MMLU）之类的任务中的集体推理能力[Hendrycks等人，2020年]，数学问题[Cobbe等人，2021年]，以及StrategyQA [Geva等人，2021年]的规定。其主要思想是，每个代理人首先对一个问题提供自己的分析，然后是一个联合辩论过程。通过多轮辩论，代理商们最终得出了一个一致的答案。[Du例如，2023]在一组六个不同的推理和事实准确性任务上利用多智能体辩论过程，并证明LLM-MA辩论可以提高事实性。[Xiong等人，2023]侧重于常识推理任务，并制定了一个三阶段的辩论，以符合现实世界的情景，包括公平辩论，不匹配的辩论，和圆桌辩论。本文还分析了不同语言教学法之间的相互一致性，并指出辩论可以改善这种相互一致性。[Tang例如，2023]还利用多个基于LLM的代理作为不同领域的专家来对医学报告进行协作讨论，以达成医学诊断的共识。

4.2 LLM-MA for World Simulation

LLM-MA的另一个主流应用场景是世界仿真。在这一领域的研究正在迅速增长，并跨越了社会科学、游戏、心理学、经济学、决策制定等各个领域。在世界模拟中使用LLM-MA的关键原因在于其出色的角色扮演能力，这对于真实地描绘模拟世界中的各种角色和观点至关重要。世界模拟项目的环境通常是精心设计的，以反映正在模拟的特定场景，并使用各种配置文件中设计的代理来匹配此上下文。与侧重于Agent协作的问题求解系统不同，世界仿真系统涉及多种Agent管理和通信方法，反映了现实世界交互的复杂性和多样性。接下来，我们将探讨在不同领域中进行的模拟。

4.2.1 Societal Simulation

在社会模拟中，LLM-MA模型用于模拟社会行为，旨在探索潜在的社会动态和传播，测试社会科学理论，并使用现实的社会现象填充虚拟空间和社区[Park et al.，2023年]的规定。利用LLM的能力，具有独特个人资料的代理人进行广泛的沟通，为深入的社会科学分析生成丰富的行为数据。随着时间的推移，社会模拟的规模不断扩大，从更小、更亲密的环境开始，逐渐发展到更大、更复杂的环境。[Park等人，2023]在使人联想到西姆斯的交互式沙盒环境中引入了生成代理，从而允许终端用户通过自然语言与25个代理的适度社区进行交互。与此同时，[Park等人，2022年]开发了Social Simulacra，它构建了一个由1,000个人物角色组成的模拟社区。该系统采用设计者对社区的愿景–目标、规则和成员角色–并模拟社区，生成发帖、回复甚至反社会行为等行为。在此基础上，[Gao等人，2023 a]进一步推进了这一概念，分别建立了由8 563名和17 945名代理人组成的庞大网络，旨在模拟侧重于性别歧视和核能主题的社交网络。这一演变表明了在最近的研究中，模拟环境的复杂性和规模不断增加。最近的研究例如[Chen等人，2023 b; Kaiya等人，2023年; Li等人，2023 a; Li等人，2023 f; Ziems等人，2023]强调了多智能体系统中不断演变的复杂性、LLM对社交网络的影响，以及它们与社会科学研究的整合。

4.2.2 Gaming

LLM-MA非常适合创建模拟游戏环境，允许代理在游戏中扮演各种角色。这项技术能够开发出可控制的、可扩展的、动态的设置，这些设置可以很好地模拟人与人之间的互动，使其成为测试一系列博弈论假设的理想选择[Mao等人，2023年; Xu等人，2023 b; Gong等人，2023年]的规定。LLM-MA模拟的大多数游戏都严重依赖于自然语言交流，在不同的游戏设置中提供了一个沙盒环境，用于探索或测试博弈论假设，包括推理、合作、说服、欺骗、领导等。

[Akata等人，2023]利用行为博弈理论来研究LLM在互动社交环境中的行为，特别是他们在重复囚徒困境和性别之战等游戏中的表现。此外，[Xu等人，2023b]提出了一种使用ChatArena库的框架[Wu等人，2023b]，用于使LLM参与诸如Werewolf的通信游戏，使用检索和反思过去的通信以进行改进，以及使用思路链机制[Wei等人，2022年]的规定。[Light等人，2023b]探索了LLM代理在玩Resistance Avalon中的潜力，引入了AVALONBENCH，这是一个全面的游戏环境，也是进一步开发高级LLM和多代理框架的基准。[Wang例如，2023c]还重点研究了LLM Agent在Avalon游戏中处理错误信息的能力，提出了递归思考（Recursive Contemplation，ReCon）框架来增强LLM识别和抵制欺骗性信息的能力。[Xu例如，2023c]引入了一个结合LLM和强化学习（RL）的框架，为狼人游戏开发策略性语言代理。该方法引入了一种新的RL策略，在动作集和状态集不是预定义的，而是在自然语言环境中的情况下使用RL策略。[Mukobi等人，2023]设计了“福利外交”，这是一个零和棋盘游戏外交的一般和变体，玩家必须平衡军事征服和国内福利。它还提供了一个开源的基准测试，旨在帮助提高多智能体人工智能系统的协作能力。除此之外，还有一项工作[Li等人，2023c]在测试代理人的心理理论（ToM）的多代理人合作文本游戏中，推理他人隐藏的心理状态的能力是人类社会互动、合作和通信的基础。[Fan例如，2023]全面评估了LLM作为理性参与者的能力，并指出了基于LLM的Agent的弱点，即即使在显式博弈过程中，Agent在采取行动时仍可能忽略或修改精炼的信念。

4.2.3 Psychology

在心理模拟研究中，就像在社会模拟中一样，多个智能体被用来模拟具有各种特征和思维过程的人类。然而，与社会模拟不同的是，心理学中的一种方法是直接将心理实验应用于这些行为体。这种方法侧重于通过统计方法观察和分析它们的各种行为。在这里，每个代理独立运作，不与他人互动，基本上代表不同的个体。另一种方法与社会模拟更紧密地结合在一起，在这种模拟中，多个代理相互交互和通信。在这个场景中，心理学理论被应用于理解和分析涌现的行为模式。这种方法有助于人际动力学和群体行为的研究，为个人心理特征如何影响集体行为提供了见解。[Ma例如，2023]探讨了使用基于LLM的会话代理进行心理健康支持的心理含义和结果。它强调需要从心理学的角度仔细评估基于LLM的代理在心理健康应用中的使用。[Kova Alfrec等人，2023]推出了一款名为SocialAI school的工具，用于创建模拟社交互动的交互式环境。它从发展心理学中汲取知识，了解行为人如何获得、展示和发展社会技能，如共同注意、沟通和文化学习。[Zhang等人，2023d]探讨了LLM Agent如何通过独特的特征和思维模式来模仿人类的社会行为，如从众和多数统治。这种心理学的整合到代理合作的理解提供了一个新的透镜，检查和增强基于LLM的多代理系统背后的机制。[Aher例如，2023]引入图灵实验来评估大型语言模型在多大程度上可以模拟人类行为的不同方面。图灵实验是在心理学、经济学和社会学中使用问答形式来模拟实验条件的经典实验和现象。他们还设计了一个提示，用于通过改变名称来模拟多个不同个体的反应。通过LLM模拟各种类型的个体，他们表明，更大的模型更忠实地复制人类行为，但它们也揭示了超准确性失真，特别是在基于知识的任务中。

4.2.4 Economy

LLM-MA被用于模拟经济和金融交易环境，主要是因为它可以作为人类的隐式计算模型。在这些模拟中，代理人被提供了禀赋和信息，并设置了预定义的偏好，允许在经济和金融背景下探索他们的行动。这类似于经济学家对“经济人”的建模方式，即在一些经济理论中，人被描述为一个为了自身利益而追求财富的理性人[Horton，2023]。有几项研究证明了LLM-MA在模拟经济情景中的不同应用，包括宏观经济活动、信息市场、金融交易和虚拟城镇模拟。代理人在合作或辩论、去中心化的环境中进行交互。[Li例如，2023 e]采用LLM进行宏观经济模拟，其特点是采用了模拟类人决策的即时工程驱动代理，从而与基于规则或其他AI代理相比，增强了经济模拟的真实性。[Anonymous，2023]探讨了信息市场中的买方检查悖论，揭示了当代理人在购买前临时访问信息时，决策制定和回答质量的改善。[Li等，2023 g]提出了一个金融交易的LLM-MA框架，强调分层的记忆系统、辩论机制和个性化的交易特征，从而加强了决策的鲁棒性。[Zhao例如，2023]利用基于LLM的代理来模拟一个有餐厅和客户代理的虚拟城镇，产生与社会学和经济学理论一致的见解。这些研究共同阐明了在不同的经济模拟场景中使用有限线性模型的广泛应用和进步。

4.2.5 Recommender Systems

LLM-MA在推荐系统中的使用类似于心理学，因为这两个领域的研究都涉及到对外在和内在人类因素的考虑，如认知过程和个性[Lex和Schedl，2022]。在推荐系统中使用LLM-MA的一种方法是直接将项目引入到多个具有不同特征的基于LLM-MA的代理中，并对不同代理的偏好进行统计。另一种方法是将用户和项目都视为代理，将用户-项目通信视为交互，模拟偏好传播。为了弥合推荐系统中离线指标和真实世界性能之间的差距，Agent 4 Rec [Zhang等人，2023 a]介绍了一种基于LLM-MA的仿真平台。使用MovieLens-1 M数据集初始化1000个生成代理，以模拟推荐环境中的复杂用户交互。Agent 4 Rec表明，LLM-MA可以有效地模仿真实的用户偏好和行为，提供对过滤器气泡效应等现象的洞察，并帮助揭示推荐任务中的因果关系。在Agent 4 Rec工作中，代理用于模拟用户，它们彼此不通信。与Agent 4 Rec工作不同，[Zhang et al.，2023 e]将用户和项目视为代理，共同优化它们以反映和调整现实世界的交互差异。这项工作强调模拟用户项交互和传播代理之间的偏好，捕捉协同过滤的本质。

4.2.6 Policy Making

类似于游戏和经济场景中的模拟，政策制定需要对现实和动态复杂问题的强大决策能力。LLM-MA可以通过模拟虚拟政府或模拟各种政策对不同社区的影响来模拟政策制定。这些模拟为政策的制定及其潜在影响提供了宝贵的见解，有助于决策者理解和预测其决策的后果[Farmer和Axtell，2022]。在[Xiao等人，2023年]是集中在模拟乡镇水污染危机。它模拟了一个位于岛屿上的城镇，包括不同代理人和乡镇负责人和顾问的人口结构。在水污染危机模拟，这项工作提供了一个虚拟的政府实体如何应对这样的公共管理挑战，以及如何在这场危机中的社会网络中的信息传递进行了深入的分析。[Hua例如，2023]引入了WarAgent来模拟关键的历史冲突，并为冲突解决和理解提供了见解，在预防未来的国际冲突方面具有潜在的应用。

4.2.7 Disease Propagation Simulation

利用LLM-MA的社会模拟能力也可用于模拟疾病传播。[威廉姆斯等人，2023]深入研究了LLM-MA在模拟疾病传播中的使用。该研究通过各种模拟展示了这些基于LLM的代理如何准确地模拟人类对疾病爆发的反应，包括在病例数增加期间自我隔离和隔离等行为。这些病原体的集体行为反映了流行病中常见的多重波的复杂模式，最终稳定为地方病状态。令人印象深刻的是，它们的行动有助于减弱流行曲线。[Ghaffarzadegan等人，2023]还讨论了传染病传播模拟，将模拟分解为两部分：表示病毒传播信息的机制模型和表示代理人面对病毒时的决策过程的决策模型。

5 Implementation Tools and Resources

5.1 Multi-Agents Framework

我们详细介绍了三个开源的多代理框架：MetaGPT [Hong et al.，2023]、CAMEL [Li等人，2023b]和Autogen [Wu等人，第2023a段]。它们都是利用语言模型来解决复杂任务的框架，侧重于多Agent协作，但它们在方法和应用方面有所不同。

MetaGPT旨在将人类工作流流程嵌入到语言模型代理的操作中，从而减少复杂任务中经常出现的幻觉问题。它通过将标准操作程序编码到系统中，并使用装配线方法将特定角色分配给不同的代理来实现这一点。

CAMEL（Communicative Agent Framework）是一个面向Agent之间的自主协作的框架。它使用一种称为初始提示的新技术来引导会话Agent完成与人类目标一致的任务。该框架还可以作为生成和研究会话数据的工具，帮助研究者理解交际主体的行为和互动方式。

AutoGen是一个通用的框架，它允许使用语言模型创建应用程序。它的独特之处在于其高度的自定义性，使开发人员能够使用自然语言和代码对代理进行编程，以定义这些代理如何交互。这一多功能性使其能够应用于各种领域，从编码和数学等技术领域到娱乐等以消费者为中心的领域。

最近，[Chen等人，2023 c; Chen等人，2023 a]介绍了用于动态多代理协作框架，而[Zhou等人，2023 a; Li等人，2023 h; Xie等人，2023]提出了构建自主代理的平台和库，强调了它们在任务解决和社会模拟中的适应性。

5.2 Datasets and Benchmarks

我们在表2中总结了LLM-MA研究常用的数据集或基准。我们观察到，不同的研究应用程序使用不同的数据集和基准。在问题求解场景中，大多数数据集和基准测试都是通过多智能体合作或辩论来评估规划和推理能力的。在World Simulation场景中，数据集和基准测试用于评估模拟世界与现实世界之间的一致性或分析不同代理的行为。然而，在某些研究应用中，如科学团队的实验和经济建模操作，仍然需要全面的基准。这些基准的发展将大大提高衡量LLM-MA在这些复杂和动态领域的成功和适用性的能力。

6 Challenges and Opportunities

LLM-MA框架和应用的研究正在迅速推进，带来了许多挑战和机遇。我们确定了未来研究的几个关键挑战和潜在领域。

6.1 Advancing into Multi-Modal Environment

LLM-MA之前的大多数工作都是集中在基于文本的环境中，在处理和生成文本方面非常出色。然而，在多模态环境中存在明显的不足，在多模态环境中，代理将与多个感官输入进行交互并解释来自多个感官输入的数据，并生成多个输出，如图像、音频、视频和物理动作。将LLM集成到多模式环境中会带来更多的挑战，例如处理不同的数据类型，以及使代理能够相互理解并响应文本信息以外的其他信息。

6.2 Addressing Hallucination

幻觉问题是LLM和基于LLM的单Agent系统面临的一个重大挑战。它指的是模型生成的文本事实上不正确的现象[Huang等人，第2023b号决议]。然而，在多代理设置中，该问题具有额外的复杂性层。在这种情况下，一个代理人的幻觉可能会产生连锁反应。这是由于多代理系统的互连特性，其中来自一个代理的错误信息可以被网络中的其他代理接受并进一步传播。因此，在LLMMA中检测和减轻幻觉不仅是一项关键任务，而且也提出了一系列独特的挑战。它不仅涉及在单个代理级别纠正不准确性，而且还涉及管理代理之间的信息流，以防止这些不准确性在整个系统中传播。

6.3 Acquiring Collective Intelligence

在传统的多智能体系统中，智能体通常使用强化学习来从离线训练数据集中学习。然而，LLM-MA系统主要从即时反馈中学习，例如与环境或人类的交互，正如我们在第3节中讨论的那样。这种学习方式需要一个可靠的交互式环境，为许多任务设计这样的交互式环境是很棘手的，限制了LLM-MA系统的可扩展性。此外，目前研究中的主流方法涉及采用记忆和自我进化技术来调整基于反馈的代理。虽然对个体代理有效，但这些方法并没有充分利用代理网络的潜在集体智慧。他们孤立地调整代理人，忽视了协调多代理人相互作用可能产生的协同效应。因此，联合调整多个代理并实现最佳集体智能仍然是LLM-MA的关键挑战。

6.4 Scaling Up LLM-MA Systems

LLM-MA系统由许多单独的基于LLM的代理组成，这对代理数量的可扩展性提出了重大挑战。从计算复杂性的角度来看，每个基于LLM的代理，通常建立在大型语言模型（如GPT-4）上，需要大量的计算能力和内存。在LLM-MA系统中扩展这些代理的数量会显著增加资源需求。在计算资源有限的情况下，开发这些LLM-MA系统将是具有挑战性的。此外，随着LLM-MA系统中代理数量的增加，出现了额外的复杂性和研究机会，特别是在有效的代理协调，通信和理解多代理的缩放定律等领域。例如，随着更多的LLM为基础的代理，确保有效的协调和沟通的复杂性显着上升。正如[Dibia，2023]中所强调的那样，设计先进的代理管理方法越来越重要。这些方法的目的是优化代理的工作流程，任务分配适合不同的代理，和跨代理的通信模式，如代理之间的通信约束。有效的代理管理有助于代理之间的和谐运作，最大限度地减少冲突和冗余。此外，探索和定义控制多智能体系统的行为和效率的缩放定律，因为它们变得更大仍然是一个重要的研究领域。这些方面突出了创新解决方案的必要性，以优化LLM-MA系统，使其既有效又节省资源。

6.5 Evaluation and Benchmarks

我们在表2中总结了LLM-MA当前可用的数据集和基准。这只是一个起点，远远不够全面。在评估LLM-MA系统并将其性能相互进行基准测试时，我们发现了两个重大挑战。首先，如[Xu等人，2023 a]中，已有的研究主要集中在评估个体在狭义情景下的理解和推理能力。这种关注往往忽略了更广泛、更复杂的涌现行为，而这些行为是多智能体系统不可或缺的一部分。其次，在跨几个研究领域（如实验操作科学小组、经济分析和疾病传播模拟）的综合基准的开发方面存在明显不足。这种差距阻碍了准确评估和基准测试LLM-MA系统在这些不同和关键领域的全部能力。

在这里插入图片描述

6.6 Applications and Beyond

LLM-MA系统的潜力远远超出了其当前的应用，在金融，教育，医疗保健，环境科学，城市规划等领域的高级计算问题解决方面具有很大的潜力。正如我们所讨论的，LLM-MA系统具有解决复杂问题和模拟真实的世界各个方面的能力。虽然LLM目前的角色扮演能力可能有局限性，但LLM技术的不断进步预示着一个光明的未来。预计它将有更复杂的方法，应用程序，数据集和基准，为不同的研究领域量身定制。此外，有机会从各种理论角度探索LLMMA系统，例如认知科学[Sumers等人，2023年]、符号人工智能、控制论、复杂系统和集体智能。这种多方面的做法可有助于在这一迅速发展的领域中更全面地了解和创新性地应用。

7 Conclusion

基于LLM的多智能体显示出鼓舞人心的集体智慧，并迅速引起了研究人员越来越多的兴趣。在本综述中，我们首先通过对LLM-MA系统的定位、区分和连接，从多个方面系统地回顾了LLM-MA系统的发展，包括主体-环境界面、LLM对主体的表征、管理主体通信的策略和能力获取的范例。最后，总结了LLM-MA在问题求解和世界模拟中的应用.通过重点介绍常用的数据集和基准，并讨论了面临的挑战和未来的机遇，我们希望本次调查能够为各个研究领域的研究人员提供有用的资源，启发未来的研究探索基于LLM的Multi-Agent的潜力。