大语言模型智能体全面综述：能力框架，多智能体系统，性能评估，应用前景，挑战趋势，想要看懂大模型，这一篇就够了！

最新推荐文章于 2025-03-31 16:01:55 发布

大模型训练

最新推荐文章于 2025-03-31 16:01:55 发布

阅读量1.6k

点赞数 8

分类专栏：大模型文章标签：大模型大数据 ai agi 大语言大语言模型语言模型

本文链接：https://blog.csdn.net/weixin_43440181/article/details/140683092

版权

大模型专栏收录该内容

60 篇文章

订阅专栏

“我们定义AI为研究从环境中接收感知并执行动作的智能体。”

——《人工智能：现代方法》，Stuart Russell和Peter Norvig（2003年）。

智能体作为实现人工通用智能（AGI）的潜在途径而脱颖而出。因此，研究人员致力于它们的多样化实现。得益于最近在大型语言模型（LLMs）方面的进步，使用通用自然语言作为接口的基于LLM的智能体显示出在各种应用中的强大的泛化能力——从作为自主通用任务助手到在编码、社交和经济领域的应用，基于LLM的智能体提供了广泛的探索机会。本文综述了当前的研究，以提供基于LLM的智能体在单智能体和多智能体系统中的深入概述。它涵盖了它们的定义、研究框架和基础组件，如它们的组成、认知和规划方法、工具利用以及对环境反馈的响应。我们还深入探讨了在多智能体系统中部署基于LLM的智能体的机制，包括多角色协作、消息传递以及缓解智能体间通信问题的战略。讨论还涉及流行的数据集和应用场景。我们最后通过考虑AI和自然语言处理的发展格局，展望了基于LLM的智能体的前景。

关键词大型语言模型 · 智能体 · 多智能体系统

我们翻译解读最新论文：探索基于大型语言模型的智能体，文末有论文链接以及CSDN独家大模型资料包。

1 引言

1.1 智能体

最近对基于LLM的智能体的研究引起了相当大的关注。在AI中，“智能体”的概念拥有坚实的基础，主要强调AI系统中智能体与其环境之间的区别[1]。任何能够感知其环境并采取行动的实体都可以被视为智能体。智能体具有在不同环境中执行任务的自主性，依靠它们过去的经验和知识来做出与其预定义目标一致的决策。

一般来说，智能体表现出以下特征[1, 2, 3, 4]：

自主性：智能体独立感知其环境，做出决策并采取行动，不依赖外部指令。
感知：智能体配备了感官能力，允许它们通过传感器收集有关其环境的信息。
决策制定：智能体根据感知到的信息做出决策，选择适当的行动以实现其目标。
行动：智能体执行行动，改变其环境的状态。

智能体可以分为五种类型：简单反射智能体、基于模型的反射智能体、目标导向智能体、效用导向智能体和学习智能体[1]。基于强化学习智能体（RL-based agents）和基于大型语言模型的智能体（LLM-based agents）属于学习智能体的范畴。

学习智能体的一个定义特征是它们能够根据经验学习和改进其行为。这些智能体可以通过观察其环境和其行动的结果，随着时间的推移增强其决策过程。这种改进解决了其他智能体类型的局限性，例如缺乏自主学习能力和难以管理多步骤决策问题。这些不同类型的智能体通常依赖于固定规则或简单模型，这可能限制了它们的适应性和泛化能力[5, 6]。

1.2 基于强化学习的智能体

基于RL的智能体的主要目标是学习一个策略，指导智能体在不同状态下采取行动以最大化累积奖励[7]。这些智能体通过试错学习，不断调整其策略以优化长期奖励。RL-based智能体在诸如游戏[9]、机器人控制[10]和自动驾驶[11]等领域取得了相当的成功。

基本的强化学习框架包括智能体、环境、状态、行动和奖励。智能体在环境中执行行动，环境根据智能体的行动以状态变化和奖励做出响应。智能体根据环境的反馈调整其策略，以在未来的行动中获得更高的累积奖励。

然而，近年来，RL-based智能体的某些局限性逐渐显现，代表性的局限性包括[12, 13]：

训练时间：RL算法通常需要大量时间才能收敛到稳定且令人满意的性能。这是因为智能体必须探索环境，从其交互中学习，并根据观察到的奖励不断更新其策略。延长的训练时间可能是一个显著的缺点，特别是对于大规模和复杂问题。
样本效率：RL-based智能体通常必须与环境进行多次交互才能学习到有效的策略。这种高样本需求可能在计算上昂贵且不切实际，对于某些应用来说，如机器人技术或现实世界场景中数据收集成本高或耗时。
稳定性：RL的学习过程可能是不稳定的，特别是当使用高维函数逼近器如深度神经网络时。这种不稳定性可能导致性能波动甚至学习算法发散。这个问题在RL-based智能体经常处理非静态环境时加剧，其中动态随着智能体策略的演变而变化。
泛化能力：RL-based智能体倾向于专门针对它们训练的特定任务，并且可能无法有效地泛化到新任务或环境中。这种泛化能力的缺乏可能是一个显著的限制，因为它需要为每个新问题从头开始训练一个新的智能体。迁移学习旨在通过利用在一个任务中获得的知识来改进相关但不同任务中的学习。然而，为RL开发有效的迁移学习技术仍然是一个开放的研究挑战。

1.3 基于大型语言模型的智能体

当代研究突出了LLMs在自然语言处理（NLP）领域的卓越能力，包括推理、一般问题回答、编程和文本生成[14, 15]。然而，研究也揭示了LLMs在处理实际任务时经常遇到的许多障碍[16, 17, 18]：

上下文长度限制：LLMs经常遇到上下文长度的限制，与文本开始或结束部分相比，更容易忽略上下文中央部分的文本。
知识更新时间长：LLMs在每次训练迭代期间需要大量的时间和计算资源，导致知识更新延迟。
缺乏直接工具使用：LLMs不能直接使用外部工具，如计算器、SQL执行器或代码解释器。

引入智能体机制可以在一定程度上促进上述挑战。基于LLM的智能体，如基于LLMs如GPT-4[19]构建的智能体，结合了LLMs和智能体的优势。

与其他智能体不同，基于LLM的智能体使用LLMs进行认知和策略过程，鼓励智能行为。

与替代智能体相比，基于LLM的智能体的优点包括[20, 21]：

强大的自然语言处理和全面的知识：利用在大量文本数据上训练期间培养出的强大语言理解和生成能力，LLMs拥有大量的常识知识、特定领域的专业知识和事实数据。这赋予了基于LLM的智能体管理各种自然语言任务的能力。
零样本或少样本学习：LLMs在训练期间已经获得了丰富的知识和能力，因此基于LLM的智能体通常需要很少的样本就能在新任务中表现出色。它们出色的泛化能力使它们能够在以前未遇到过的情况下表现良好。
有机的人类-计算机交互：基于LLM的智能体能够理解和生成自然语言文本，促进了人类用户和智能体之间的自然语言交互。这增强了人类-计算机交互的便利性和以用户为中心的特性。

图1：智能体发展的路线图

本文从第2节开始介绍基于LLM的智能体系统，接着在第3节中概述了基于LLM的智能体系统框架。第4节描述了智能体的流行数据集和评估方法。在第5节中，我们检查了基于LLM的智能体在不同领域的应用，包括自然科学、社会科学、工程系统和一般领域。最后，在第6节中，我们探讨了智能体的发展轨迹，涉及增强基于LLM的智能体的适应能力，整合多模态模型或大型多模态模型（LMMs）赋予智能体多模态信息处理能力，并解决遇到的挑战。

2 概述

在仔细研究基于LLM的智能体时，它们可以分为两个主要类别：单智能体和多智能体系统。这些不同的系统类型在许多方面表现出显著的差异，包括应用领域、记忆和反思机制、数据要求、模态和工具集。随后，本文深入探讨了这些智能体类型，以帮助读者理解它们的独特属性和应用领域。

2.1 单智能体系统

单智能体系统包括一个擅长处理多个任务和领域的基于LLM的智能体，通常称为基于LLM的智能体。一个基于LLM的智能体通常拥有广泛的语言理解、生成能力和多任务泛化能力，使其能够执行如代码生成、游戏探索和数据管理等任务。此外，不同基于LLM的智能体的评估方法各不相同，使用的工具也不标准化。一个基于LLM的智能体可能是单模态的或多模态的，这取决于其设计目标。即将到来的表1提供了几个当代基于LLM的智能体的概要。

图2：基于LLM的智能体概述

每个基于LLM的智能体V可以简洁地表示为一个五元组V = (L, O, M, A, R)，其中L表示LLM，O表示目标，M代表记忆，A构成行动，R代表反思：

LLM：结合LLM和智能体的配置和能力通常需要一个提示定义或使用一个特定的领域LLM。可以认为不需要额外训练LLM；然而，其推理参数，如温度，可以动态调整。LLM作为基于LLM的智能体的大脑核心，要求基于当前观察、历史记忆和奖励信息来制定任务策略和决策。
目标：主要目标，表示为目标，代表智能体必须实现的最终状态或条件。智能体必须根据目标进行任务分解和规划。
行动：智能体拥有一系列可以执行的行动，通常涉及使用各种工具、设计新工具或向环境或其他智能体传递消息。
记忆：智能体的记忆存储信息，并象征智能体的当前状态。当智能体采取行动时，随后的环境反馈和奖励信息被记录在记忆中。
反思：在执行行动后，智能体需要利用其反思能力，称为“反思”，来反思先前的行动和相关的环境反馈奖励。反思过程应与智能体的记忆、LLM或其他适当的模型集成，以规划和执行后续行动。

关于基于LLM的智能体的外部组成部分，环境和工具通常包括以下内容：

工具：工具指智能体可以使用的任何工具，如计算器、代码解释器、机械臂等。
环境：智能体所处的环境显著影响其行动。智能体可以观察并与此环境互动，获得有价值的反馈。

2.2 多智能体系统

与单智能体系统不同，多智能体系统（MAS）是由多个相互作用的智能体组成的计算机系统[22]。受Minsky的心智社会（SOM）[23]和基于自然语言的SOM（NLSOM）[24]的启发，MAS设计需要更高级别的复杂协调，特别是在它们的互动和信息共享中。每个智能体通常拥有特定的领域专业知识，使多智能体系统特别适合跨越多个领域的任务。

Decker [25]为MAS提出了一个四维框架。这些维度包括：1）智能体的粒度，从粗糙到可接受的配置；2）智能体知识的异质性，比较具有冗余知识与具有专门专业知识的智能体；3）控制分配机制，可以分为善意或竞争性、团队导向或层次结构化，可能涉及静态或变化的角色分配；4）通信协议的多样性，区分黑板和基于消息的系统，并指定从低级到高级内容的梯度。

从应用角度来看，Parunak [26]从三个重要特征提出了MAS的分类：

系统功能；
系统架构（例如，通信、协议、人类参与）；
智能体架构（例如，异质性程度，反应性与深思熟虑）。

该分类的主要贡献在于将MAS划分为智能体级别和系统级别特征。

Stone和Veloso [2]根据两个关键维度对MAS进行分类：智能体的异质性程度和通信程度。这个分类框架产生了四种不同的MAS原型：同质非通信智能体、异质非通信智能体、同质通信智能体和异质通信智能体。将控制理论和强化学习等方法纳入其中是赋予这些智能体智能和自主性的常见做法。

正如Yang [27]所强调的，在单个智能体范例中突破深度Q学习（DQN）[8]架构后，2019年观察到基于RL的智能体扩展到多智能体系统，标志着多智能体强化学习（MARL）技术的兴起。在MARL的背景下，Hu等人[28]提供了一个分类法，通过以下四个维度来区分MARL算法：

任务模式：合作型或竞争型；
智能体类型：异质性或同质性；
学习风格：独立学习、集中训练、分散执行（CTDE）或完全集中；
知识共享：智能体级别、场景级别或任务级别。

自2022年以来，LLM一直在蓬勃发展。考虑到MAS中的基于LLM的智能体，图G(V, E)可以表示多个基于LLM的智能体之间的关系。这里V是节点集，Vi代表一个基于LLM的智能体，E是边集，Eij代表基于LLM的智能体Vi和Vj之间的消息传递和关系。

我们提出一种分类，考虑以下方面：

多角色协调：合作、竞争、混合和层次；
规划类型：集中规划分散执行（CPDE）和分散规划分散执行（DPDE）。

图3：基于LLM的智能体之间的关系

它将与表2中每个基于LLM的详细信息一起列出。

2.3 智能体系统模板

许多研究人员提出了智能体和模板解决方案，以帮助未来的研究人员和爱好者开发更相关的智能体。例如，ToolLLM [74]提供了一个全面的数据构建、模型训练和评估模板，促进了具有增强功能的智能体的发展。

像AutoGPT [75]、XLang [76]、LangChain [77]、MiniAGI [76]、XAgent [78]、OpenAgents [79]和WorkGPT [80]等项目已经在GitHub上开源了他们的代码。这些模板支持各种功能，包括不同的思考、规划和审查方法，并允许将各种模型集成为智能体的核心组件。此外，AgentGPT [81]提供了微调模型和将本地数据纳入模型训练过程的功能。Crouse等人[82]介绍了一个简化的模板，使用线性时序逻辑（LTL）来促进基于LLM的智能体的设计和实施，促进快速实验并提高智能体性能。

此外，像AutoGen [83]、AgentVerse [84]、AutoAgents [85]和AGENTS [86]等模板通过允许在多智能体配置中选择和定制角色，加速了多智能体系统的创建，从而简化了开发过程。

表1：基于LLM的单智能体系统的列表。

表2：基于LLM的多智能体系统的列表。

3 LLM-based智能体系统框架

3.1 基于LLM的单智能体系统

本节将单智能体系统简洁地分解为五个关键组成部分：规划、记忆、反思、环境和行动。每个组成部分都因其独特的贡献而突出，构成了统一整体的重要部分，强调了系统的复杂设计和功能。

3.1.1 规划

规划能力定义了基于LLM的智能体根据设定目标和现有环境约束制定行动序列的能力，确保目标实现。这是基于LLM的智能体的一个关键特征，包括任务分析、潜在行动预测、最佳行动选择以及解决复杂问题和任务的能力。与传统和基于RL的智能体使用像Dijkstra[87]和POMDP[88]这样的规划算法在状态空间中找到最佳行动序列并在不确定环境中进行规划不同，基于RL的智能体需要学习策略[5]。基于LLM的智能体主要从LLM中获得其规划能力。尽管LLM主要通过自然语言或特定文本进行通信，但其内部结构和训练方法赋予了它们一定程度的规划能力。最近的研究趋势还强调了指导LLM进行思考和规划作为关键发展方向。

基于LLM的智能体的规划能力

图4：规划能力的分类。

上下文学习（ICL）方法ICL使用自然语言提示，包括任务描述，并可能通过任务示例进行补充，引导语言模型解决问题[106]。思维链（CoT），包括复杂CoT[90]、自动CoT[91]和零样本CoT[92]，使用思维引导提示将复杂任务系统地分解为更小、更易管理的组成部分，从而促进长期规划和深思熟虑。为了增强CoT的效果，自我一致性[93]使用LLM生成多个推理路径，并通过投票等方法整合产生的结果，例如，通过在路径中选择最一致的响应。思维树（ToT）[94]将问题分解为几个思考阶段，在每个阶段产生多个概念，并形成树状结构。搜索过程实施广度优先或深度优先探索，并使用分类器或多数投票评估每个状态。

为了增强CoT的泛化能力，最少至最多[95]将复杂问题分解为子问题，并依次解决它们。同时，思维框架（SoT）[96]最初指导LLM生成答案的框架，然后通过API调用或批量解码完成每个框架点，显著加快答案生成。思维图（GoT）[97]将LLM产生的信息表示为任意图，信息单元（LLM思维）作为顶点，边对应这些顶点之间的依赖关系。逐步提示提示（PHP）[98]通过使用先前生成的响应作为提示，加快引导向准确答案的指导，从而提高模型在解决问题的上下文中的推理能力。自我完善[107]使LLM能够提供多方面的反馈其输出，并根据这些反馈迭代细化以前的输出，模仿人类在生成文本时可能经历的迭代改进过程。

使用外部能力方法涉及使用工具、算法或模拟技术在计算机科学中进行规划。LLM+P[100]依赖于经典规划器进行长期规划，使用Planning Domain Definition Language（PDDL）[108]作为中间接口。该模型将问题转换为问题描述（问题PDDL），请求规划器根据“领域PDDL”生成PDDL计划，然后将PDDL计划转换回自然语言。LLM-DP[101]将LLM与符号规划器结合起来解决具身任务，利用LLM对行动对环境的影响的理解和规划器的解决方案发现效率。Guan等人[109]使用GPT-4生成PDDL，用自然语言反馈完善PDDL，并应用提取的领域模型进行稳健规划。RAP[102]框架通过添加世界模型在LLM中实现有意识的规划推理。它采用原则性规划，特别是蒙特卡洛树搜索，进行高效探索以生成高回报推理轨迹。

除了这些方法，还提出了几种其他方法来增强规划和推理能力。Zhao等人[110]将LLMs作为常识世界模型，并应用启发式策略解决复杂的任务规划问题。Romero等人[103]概述了一种将认知架构和LLM整合起来的可行方法。Merkle和Mikut[104]提出了一种基于模拟的方法，通过知识图谱和实体嵌入表示异构上下文，并通过网络运行的代理动态组合策略。FaR[111]结合心智理论（ToM）[112]提供了一个框架，使LLM能够预测未来的挑战并考虑潜在的行动。LATS[113]将LLM作为智能体、价值函数和优化器整合起来，利用其潜在优势增强规划、行动和推理能力。Think-on-Graph[114]通过在知识图谱上执行束搜索，帮助智能体确定最佳规划路径。这些方法展示了LLM在各种规划和推理任务中的多样性和潜力，为未来更先进和高效的解决方案铺平了道路。

多阶段方法

多阶段方法将规划过程分解为不同的阶段，旨在提高LLM在复杂推理和问题解决任务中的性能。SwiftSage[105]是一个受双过程理论启发的框架，结合了行为克隆和引导LLM的优势，增强了任务完成的性能和效率。它由两个主要模块组成：SWIFT模块，负责快速直观的思考，和SAGE模块，处理深思熟虑的思考。DECKARD[48]的探索过程分为梦想和觉醒阶段。在梦想阶段，智能体使用LLM将任务分解为子目标。在觉醒阶段，智能体为每个子目标学习模块化策略，根据智能体的经验验证或修正假设。

这些方法提高了模型在复杂推理和问题解决任务中的性能。通过这些方法，LLM可以被引导进行思考和规划，以解决复杂的问题和任务。

3.1.2 记忆

基于LLM的智能体的内存系统的主要功能是保存和调节知识、经验数据和历史信息，这些可以在解决问题和任务执行过程中用于参考和修改。此外，内存经常体现LLM-based智能体的当前状态。通常，这类智能体的内存以文本格式记录，从而实现与LLM的无缝交互。本文描述了流行的内存分类及其相关设计方法。

图5：内存的分类。

短期记忆： 短期记忆存储和操作有限数量的瞬时信息。在基于LLM的智能体的背景下，这可以通过将输入文本与与当前任务相关的上下文数据结合来实现，受到LLM上下文长度的限制。如ChatDev[66]所示，会话历史被存档，从而根据记录的智能体间通信进行后续步骤的决策。LangChain[77]通过封装每次交互中的关键信息并保留最常发生的交互来提高短期记忆效率。

长期记忆： 长期记忆存储和调节大量的知识、经验数据和历史记录。使用长期记忆的智能体可能涉及与外部知识库、数据库或其他信息源的交互。外部内存的设计可以利用知识图谱[115]、向量数据库[116]、关系数据库查询或API调用等技术与外部数据源进行交互。Voyager[50]使用一个不断扩展的技能库来存储和检索复杂行为。在GITM[51]中，内存主要帮助从外部知识库中提取最相关的文本知识，然后长期记忆使用这些知识来识别必要的材料、工具和相关信息。为了提高智能体性能，ExpeL[117]智能体在多个任务中保留经验。在Reflexion[118]中，通过自我反思获得的经验被保存在长期记忆中，并影响未来的行动。MemGPT[119]是一个智能系统，擅长管理多种内存层次，有效提供在LLMs有限上下文窗口内扩展的上下文，并使用中断来管理自身和用户之间的控制流。

短期记忆可以封装和概括重要信息，然后动态地存储在长期记忆中。如Generative Agents[63]所示，智能体通过存档和更新其经验来维持其内部状态，通过将其经验与LLMs的语言表示对齐来生成自然语言，并不断积累新经验和将现有经验整合。智能体的内存随着时间的推移而发展，并且可以动态访问以表示智能体的当前状态。

内存检索

增强检索生成[120]可以将信息检索组件与LLM结合，并产生更可靠的输出。检索目标可以用内存表示，即知识库。内存检索对于有效访问和管理内存至关重要。在基于LLM的智能体的背景下，可以通过在线学习和自适应修改来促进内存检索。在制定内存检索方法时，可以使用在线强化学习、多任务学习或注意力机制等技术，实现模型参数的实时更新和调整。LaGR-SEQ[121]引入了SEQ（Sample Efficient Query），它训练了一个辅助RL-based智能体，以确定何时向LLM查询解决方案。REMEMBER[54]为LLMs配备了长期记忆，使它们能够利用过去的经验，并引入了强化学习和经验记忆来更新记忆。Synapse[122]从原始状态中清除与任务无关的信息，使有限上下文中可以包含更多样本。它通过存储样本嵌入并通过相似性搜索检索它们来推广到新任务。Kang等人[123]讨论了人类大脑中分布式存储的特点。它提出了构建内部内存模块DT-Mem，允许智能体存储和检索与各种下游任务相关的信息。Wang等人[124]使用多模型内存存储智能体收集的交互经验，并使用体现RAG使智能体通过探索开放世界Minecraft自行改进。

利用上述方法，可以为基于LLM的智能体设计内存类型和检索技术。必须强调的是，基于LLM的智能体可以同时包含两类内存。恰当选择相关的内存分类和检索机制可以增强基于LLM的智能体在有效存储、管理并快速提取数据以应对挑战和完成任务方面的效率和适应性。

3.1.3 反思

基于LLM的智能体的反思能力，包括评估先前决策和随后的环境反馈。这种能力允许基于LLM的智能体彻底检查其行为、决策和学习过程，增强其智能和适应性。

对基于LLM的智能体反思的当代研究可以根据学习方法广泛分类，包括上下文学习、监督学习、强化学习和模块化协调方法。

图6：反思能力的分类。

上下文学习方法如第3.1.1节所述，上下文学习（ICL）利用特定于任务的语言提示和示例进行加强。ReAct[125]实现了一个交互范式，交替生成与任务相关的语言推理和行动，从而协同增强语言模型的推理和行动能力。这种方法在解决需要不同动作空间和推理的任务时表现出通用性和适应性。Reflexion[118]在每次行动后计算启发式，并确定是否根据自我反思重置环境，从而增强智能体的推理能力。

监督学习方法

监督学习通常依赖于多种来源，包括LLMs、人类专业知识、代码编译器和外部知识。CoH[126]利用一系列带有反馈的先前输出来促进模型自我增强。这种技术采用监督微调、正面和负面评级以及经验重放来提高性能。Lightman等人[127]通过实验证实，过程监督在数学推理任务中优于结果监督，主动学习显著提高了过程监督的效果。内省提示[128]引入了一个基于过去轨迹或专家演示的自我检查框架，为策略优化生成简洁而有价值的见解。

Zhou等人[129]提倡一种基于明确基于代码的自我验证的提示方法，以完善GPT-4代码解释器的数学推理能力。此外，它还结合了推理步骤的多样性验证器来进一步加强智能体的推理能力。

强化学习方法

强化学习强调通过从历史经验中获取知识来增强参数。Retroformer[130]通过从回溯模型中学习并使用策略梯度来自主调节基于LLM的智能体的提示，从而改善智能体。REMEMBER[54]引入了一种新颖的半参数强化学习方法，结合了强化学习和经验记忆，通过经验类比更新记忆并增强能力。Zhou等人[47]提供了一个框架，通过从非玩家角色（NPC）中提取相关信息并将其转化为知识图谱，加速智能体收敛到最优策略。REX[131]结合了一个辅助奖励层，并融合了类似上置置信界分数的概念，从而实现更稳健和高效的AI智能体性能。ICPI[132]展示了在没有专家演示或梯度的情况下执行RL任务的能力，通过在RL环境中反复试验和错误交互迭代更新提示内容。Liu等人[135]将智能体规划和行动整合起来，利用学习和规划在贝叶斯自适应马尔可夫决策过程中（MDP）。在这种方法中，LLM从记忆缓冲区构建未知环境的更新后验，并为规划生成优化多个未来步骤的价值函数的最优轨迹。Wang等人[136]提出了一种技术，使基于LLM的智能体能够通过与环境和其他智能体的交互进行迭代探索和近端策略优化（PPO）[137]训练，不断改进。这种方法还促进了短期经验整合到长期记忆中。

模块化协调方法

模块化协调方法通常包括多个模块协同工作，以促进基于LLM的智能体的规划和反思。DIVERSITY[133]研究了各种提示，以增加推理路径的多样性。通过纳入一个验证器来区分有利和不利的响应，它实现了增强的加权投票，并使用多样性验证来确定每个步骤的正确性。DEPS[134]框架通过描述符、解释器和目标选择器与LLM规划器交互，提高整体成功率。PET[53]利用LLM知识来简化具身智能体的控制问题。该框架包括规划、消除和跟踪模块，以完成更高级别的子任务。Dasgupta等人[70]研究了将规划器、执行器和报告器整合到一个三部分系统中。该系统在分布式学习中展示了泛化能力，研究了失败场景，并描述了如何通过强化训练各个组件来提高性能。

这些方法和框架通过环境反馈、自我学习和反思优化了基于LLM的智能体的性能。它们在增强智能体的反思和重新规划能力方面取得了显著进展。

3.1.4 环境

基于LLM的智能体可以通过环境反馈与各种环境进行交互和学习。这些环境可以广泛地分为计算机、游戏、代码、现实世界和模拟环境。

计算机环境

基于LLM的智能体在计算环境中与网站、API、数据库和应用程序进行交互。交互方式包括：

网络抓取：从网站获取信息以获取必要的数据和知识。
API调用：使用Web API访问或传输数据，促进与在线服务的交互。
网络搜索：使用搜索引擎发现相关信息和资源，以解决问题或完成任务。

当代研究引入了诸如RCI[138]等方法，通过自然语言命令指导语言模型执行计算任务。WebArena[139]提供了一个独立的、自托管的Web环境，用于构建自主智能体。WebGPT[140]利用搜索引擎进行文档检索，实现端到端的模仿和强化学习，优化检索和聚合，同时生成引用网络检索信息的响应。Mobile-Env[141]允许智能体观察屏幕截图并查看Android操作系统的视图框架，实现诸如点击屏幕或输入命令等操作，与Android应用程序交互。SheetCopilot[142]使用自然语言促进与电子表格的交互。

游戏环境

基于LLM的智能体在游戏环境中与虚拟角色、对象和设置进行交互。游戏环境中的交互方法包括：

角色控制：通过发出命令（例如，移动、跳跃、攻击）控制游戏中的角色。
环境互动：与游戏环境中的对象进行互动（例如，拾取、使用、放置）以完成任务。
状态感知：从游戏环境中收集状态信息（例如，角色位置、项目计数）以进行决策和规划。

著名应用包括DECKARD[48]，它部署了LLM引导的探索以在Minecraft游戏中设计任务。VOYAGER[50]构成了一个基于Minecraft的LLM驱动的终身学习智能体，不断探索世界，获取各种技能并发现新事物。GITM[51]采用了一种“间接映射”方法，将长期和复杂的目标转化为一系列低级的键盘和鼠标操作，便于在Minecraft游戏中进行高效和适应性操作。AgentSims[143]生成了一个具有不同建筑和居民的虚拟小镇，简化了任务设计，并解决了研究人员可能因背景和编程专业知识水平不同而遇到的挑战。LLM-Deliberation[144]建立了一个多智能体、多问题和语义丰富的基于文本的谈判游戏的多功能测试平台。此外，该平台可以轻松调整难度级别。

编码环境

编码环境使基于LLM的智能体能够编写、修改和执行代码，以完成各种任务，从编码到通过代码验证推理。编码环境中的交互方法包括代码生成、代码调试和代码评估。代码生成根据任务要求生成代码片段或完整程序。代码调试识别和纠正代码中的错误或问题。代码评估执行代码并评估其性能，根据运行时错误消息或输出进行优化和改进。

LLift[145]构成了一个完全自动化的智能体，与静态分析工具和LLM交互，解决特定于错误建模、广泛问题范围和LLM非确定性的挑战。MetaGPT[67]将人类工作流程整合到LLM驱动的协作中，使用标准操作程序（SOPs）作为提示，以促进结构化协调。同样，Dong等人[68]介绍了一个涉及多个LLM角色的自我协作框架，用于自动生成代码。在这个框架中，不同的角色承担分析师、程序员、测试员等角色，形成一个协作团队来完成代码生成任务。ChatDev[66]代表了一个虚拟的聊天驱动软件开发公司，将开发过程根据瀑布模型分为设计、编码、测试和文档编制四个独立的连续阶段。CSV[129]通过提示解释器使用代码进行自我验证，增强了通过指示已验证状态来提高解决方案信心的数学推理能力。

现实世界环境

基于LLM的智能体可以与现实世界的设备、传感器和执行器进行交互，促进其在现实世界场景中的操作。这些情况下的交互方法包括：

数据收集：基于LLM的智能体可以从相机和麦克风等传感器中收集实时数据，然后用于分析和决策。
设备控制：在设备控制方面，基于LLM的智能体可以通过传输控制信号来操纵执行器，如机械臂和无人机，从而完成特定任务。
人机交互：在人机交互方面，基于LLM的智能体擅长与人类用户进行自然语言通信，能够接收指令、提供反馈和回答问题。

Di Palo等人[55]介绍了一个以语言为中心的推理工具包框架，在稀疏奖励机器人操作环境中进行了测试，机器人执行堆叠物体等任务。TaPA[146]提出了一个嵌入式任务规划智能体，用于在物理场景约束下进行现实世界规划。Alexa奖项目的SimBot挑战赛[147]旨在构建能够在模拟物理环境中完成任务的机器人助手。Zheng等人[148]提出了23种启发式方法，指导基于LLM的智能体与人类合作和共同创造服务。

模拟环境

基于LLM的智能体在模拟环境中使用代表现实世界系统或过程的虚拟模型，例如经济市场、物理环境和交通系统。模拟环境中的交互方法包括：

模型操作：调整模拟模型中的参数或变量，探索各种场景并分析其结果。
数据分析：收集和分析模拟生成的数据，以识别模式、趋势和见解，为决策提供信息。
优化：应用优化算法以确定在模拟环境中的最佳行动方案，考虑约束和目标。

在最近的研究中，TrafficGPT[149]展示了在交通模拟环境SUMO[150]中执行流量分析和回答问题的能力。Li等人[34]检查了社会智能体在模拟社交平台中的行为特征。Horton[30]研究了基于LLM的智能体在经济模拟场景中的行为，并比较了智能体和实际人类行为之间的差异。AucArena[151]是一个拍卖模拟环境，智能体必须考虑资源和风险管理因素。

这些模拟环境为基于LLM的智能体提供了一个受控但现实的背景，以学习、实验和发展适用于现实世界场景的解决方案，促进了从虚拟领域到现实生活应用的知识技能转移。

3.1.5 行动

基于LLM的智能体的行动能力涉及执行行动或使用工具。这些智能体的主要交互方式通常是通过文本生成，促进与外部环境的通信，这与生成智能体[63]的特性相似。另一种方法是结合LLM或使用工具的智能体，包括API、计算器、代码解释器或通过基于文本的指令在物理环境中采取行动。这进一步扩展到工具的战略规划和部署，可能需要为它们的实施开发新工具。

工具使用

MRKL[152]将LLM和外部工具整合起来解决复杂问题。这包括构建模块和路由器，以及路由自然语言查询。TALM[153]将语言模型与工具连接起来，促进文本到文本的API连接。ToolFormer[154]展示了LLM利用外部工具的能力，增强了在各种任务中的性能。HuggingGPT[155]结合了多个AI模型和工具进行任务规划和执行，包括文本分类和目标检测。基础模型的工具学习探索了工具学习，提出了一个将基础模型和工具集整合的通用框架，以实现高效的任务执行。Gorilla[157]深入研究了LLM在API调用和程序合成、上下文学习和任务分解中的应用，以提高性能。RestGPT[158]是一种将LLM与RESTful API连接起来解决用户请求的方法，包括在线规划和API执行。TaskMatrix.AI[166]可以理解文本、图像、视频、音频和代码的输入，并随后生成调用API以完成任务的代码。D-Bot[159]提供数据库维护建议，涵盖知识检测、根本原因分析和多LLM协作。

Chameleon[156]使用各种工具解决挑战，并使用自然语言规划器选择和组合存储在库存中的模块，从而构建解决方案。AVIS[160]是一个自主视觉信息搜索系统，利用LLMs动态制定使用外部工具的策略，并检查其输出结果，从而获取回答所提出问题所需的关键知识。

工具规划

ChatCoT[161]将链式思维建模为多轮对话，通过工具辅助推理改进复杂任务处理。TPTU[162]引入了一个任务执行框架，包括任务指令、设计提示、工具包、LLM、结果以及任务规划和工具利用能力。ToolLLM[74]开发了一个基于深度优先搜索的决策树，使LLM能够评估多个基于API的推理路径并扩展搜索空间。Gentopia[163]是一个框架，允许通过简单配置灵活定制智能体，将各种语言模型、任务格式、提示模块和插件无缝集成到统一的范式中。

工具创建

Cai等人[164]提出了一个工具创建和利用框架，生成适合各种任务的工具。这包括分阶段工具生成和任务执行。CRAFT[165]是一个旨在开发和检索通用工具的框架，能够生成针对特定任务量身定制的专业工具包。LLM可以从这些工具包中提取工具来解决复杂任务。

3.2 基于LLM的多智能体系统

3.2.1 多智能体系统的关系

在基于LLM的多智能体系统（MAS）中，许多智能体参与合作、竞争或层次组织，以执行复杂任务。这些任务可能包括搜索和优化、决策支持、资源分配到协作生成或控制。这些系统中智能体之间的相互关系至关重要，因为它们管理智能体之间的交互和合作机制。同样，这些智能体之间的关系可以扩展到基于LLM的MAS。目前，大多数基于LLM的MAS研究主要集中在智能体之间的合作和竞争动态上。

合作关系

在合作关系中，学术关注主要集中在角色和任务分配策略以及协作决策算法上。这些方法可以提高智能体合作的效率，从而提高整体系统性能。SPP[172]通过多角色自我合作实现多轮对话，将单一LLM转变为认知协同体。Generative Agents[63]利用基于LLM的智能体模拟合理人类行为，从而促进智能体之间的合作。CAMEL[173]通过面向任务的角色扮演实现AI助手和AI用户之间的多轮对话合作。MetaGPT[67]将有效的工作流程整合到LLM驱动的多智能体协作编程方法中，实现不同角色之间的协作。ChatDev[66]利用多个基于LLM的智能体解决对话任务，加速LLM应用开发。

受到Minsky的心智社会[23]的启发，NLSOM[24]引入了基于自然语言的心智社会（NLSOMs）的概念，包括多个LLM和其他基于神经网络的专家，它们通过自然语言界面进行通信。这种方法应用于解决各种场景中的复杂任务。Zou等人[174]实现了设备端LLM之间的协作。关于具身MAS，RoCo[175]利用LLM进行高级通信和低级路径规划，促进多机器人协作。InterAct[176]分配了检查员和分类器等角色，在AlfWorld[177]中取得了显著的成功率。AutoAgents[85]可以根据各种任务生成和协调多个专业智能体，形成一个AI团队来实现目标。

竞争关系

在竞争关系中，考虑因素包括设计有效的竞争策略、信息隐藏技术和对抗行为。这些技术可以帮助智能体在竞争中获得优势，从而实现其目标。Liang等人[169]通过多智能体辩论框架增强了任务解决能力。ChatEval[16]利用多智能体方法促进一组LLM与各种智能对手合作，利用它们各自的能力和专业知识提高处理复杂任务的效率和有效性。

混合关系

智能体必须在混合关系中平衡合作与竞争，以实现其目标。目前，基于LLM的MAS中混合关系的研究集中在设计协作竞争算法上，这是一个关键主题。这些技术可以帮助智能体在复杂环境中做出有效决策。Xu等人[170]使多个基于LLM的智能体参与狼人杀游戏，每个智能体在信息不对称条件下合作或背叛其他智能体，以实现其角色目标。同样，Light等人[171]使基于LLM的智能体参与阿瓦隆游戏，每个智能体必须在动态发展的游戏阶段中做出决策，并与其他智能体进行涉及合作或欺骗的谈判，以完成其分配角色的目标。Corex[179]从人类行为中汲取灵感，结合了辩论、审查和检索模式等各种协作范式。这些模式共同增强了推理过程的真实性、保真度和可靠性。

分层关系

研究人员专注于开发高效的分层控制结构、信息传输机制和任务分解方法。这些技术使智能体能够在不同层次上有效协作，提高系统的整体性能。分层关系通常表现为树形结构，其中父节点智能体负责任务分解过程，并将任务分配给子节点智能体。后者遵循其相应父节点的安排，并返回汇总信息。AutoGen[83]利用不同的智能体解决代码生成和文本编写等任务，通过对话进行任务分解。目前，基于LLM的MAS中分层关系的研究仍在发展中，只探索了有限的层次数量。

在未来的研究努力中，利用博弈论、拍卖机制和谈判技术有望解决合作智能体之间的任务分配问题。此外，分布式约束优化问题（DCOP）为研究合作智能体中的协作决策提供了一个重要的框架。在其他关系类型的情况下，合作博弈和多目标强化学习（MORL）成为探索合作与竞争之间微妙平衡的关键框架。这些成熟的研究框架也可以在基于LLM的MAS中进行调整和改进。

3.2.2 规划类型

在MAS领域，规划是一个关键组成部分，因为它使多个智能体能够协调一致地追求共同目标。已经提出了许多规划方法，每种方法都有其独特的优点和限制。类似于多智能体强化学习中的集中训练分散执行（CTDE）[180]的概念，本研究探讨了两种主要的规划范式：集中规划分散执行（CPDE）和分散规划分散执行（DPDE）。

图10：MAS规划类型的分类。

集中规划分散执行（CPDE）

在CPDE范式中，集中的LLM负责为系统中包含的所有智能体进行规划。这要求LLM考虑所有智能体的目标、能力和约束，为它们制定适当的行动计划。如Gong等人[181]所强调的，规划器必须同时管理多个智能体，避免潜在冲突，并协调它们以实现需要复杂协作的共同目标。规划完成后，每个智能体独立执行其指定任务，不再与中央LLM进行交互。这种方法的优点在于可以在全局范围内优化整体性能，因为中央LLM可以考虑所有智能体的需求和资源。Li等人[72]在Overcooked[182]和MiniRTS[183]多智能体环境中开发了SAMA，通过使用集中的LLM促进目标生成、目标分解、目标分配和自我反思的重规划。

然而，CPDE也表现出某些局限性。首先，集中规划过程可能导致计算复杂度增加，特别是当管理大量智能体和复杂任务时。其次，由于所有智能体都依赖单一的LLM进行规划，系统可能容易受到单点故障和通信延迟的影响。最后，CPDE可能不适合需要实时响应和高度适应性的情况，因为中央LLM可能无法迅速响应环境变化。

分散规划分散执行（DPDE）

与CPDE形成对比的是，DPDE系统为每个智能体配备了负责行动规划的单独LLM。因此，每个智能体可以独立地根据其目标、能力和本地信息制定计划。在执行阶段，智能体可以通过本地通信和协商来增强协作。

DPDE的优点包括提高鲁棒性和可扩展性，因为每个智能体独立规划和执行，从而减轻了中央LLM的计算负担。

此外，DPDE系统通常表现出更大的适应性，因为每个智能体可以根据本地信息迅速修改其行为。这种属性使DPDE系统更适合动态和不确定的环境。

然而，DPDE的约束包括在实现全局最优性方面的潜在挑战，因为每个智能体的规划取决于本地信息。此外，在大规模系统中，协调和通信开销可能变得相当大，可能影响整体性能。

智能体之间的信息交换对于促进这类系统中的合作和协作至关重要。接下来的讨论描述了DPDE系统中智能体之间信息交换的三个类别：

无通信的信息交换

在这种模式下，智能体不进行直接通信。每个智能体独立规划和执行，完全依赖于本地信息和观察来完成任务。这种方法的优点在于通信开销最小，因为智能体不需要交换信息。此外，这可能是在通信有限或不可靠的环境下唯一可行的选择。

然而，缺乏通信可能导致智能体之间的协作次优，因为它们无法共享信息、协调行动或解决冲突。在某些情况下，这可能导致效率低下的行为和整体性能的下降。

有通信的信息交换

在这种模式下，智能体通过显式通信进行信息交换和行动协调。通信可以采取多种形式，包括消息传递、广播或点对点通信。智能体可以通过通信传播观察结果、目标、计划和其他相关信息，增强协作和整体性能。

然而，通信可能会产生额外的开销，包括通信延迟、带宽使用和接收信息处理。此外，在通信不可靠或受限的环境中，这种方法可能面临障碍，如信息丢失或更新延迟。

通过共享内存的信息交换

在这种模式下，智能体通过共享内存交换信息，共享内存是一个集中的数据结构，可供系统中的所有智能体访问和修改。智能体通过在共享内存中存储和检索信息来实现信息共享和协作。

共享内存具有几个优点，如简化通信，因为智能体不需要直接传输和接收消息。此外，它提供了统一的信息表示和访问机制，简化了系统的设计与实现。

然而，共享内存也存在一定的局限性。首先，由于所有智能体都需要访问和修改共享内存，可能会出现争用和同步问题。其次，共享内存可能会阻碍系统的可扩展性，因为需要保持所有智能体之间的一致性。最后，在分布式和移动智能体环境中实现共享内存可能会遇到技术挑战，如确保数据一致性和管理并发控制。

在当代研究中，可以识别出两种共享内存的形式：

中央知识库：可以建立中央知识库来存储和管理每个智能体的共享知识。这个知识库可以是数据库、知识图谱或其他存储结构。智能体可以通过查询和更新这个知识库来实现记忆共享。MetaGPT[67]提供了一个全局记忆池来存储所有协作记录，使每个智能体能够主动订阅或搜索所需信息。这种设计允许智能体积极观察和提取相关信息。
共享参数：在某些情况下，可能考虑在基于LLM的MAS系统中的智能体之间部分或完全共享模型参数。这样，当一个智能体获得新知识或技能时，其他智能体也可以立即获得这些信息。然而，这种方法可能会导致过度拟合或过度专业化问题。为解决这个问题，可以动态调整共享参数的权重，以平衡每个智能体的专业化和泛化能力。

3.2.3 提高通信效率的方法

在基于LLM的MAS中，通信无效和LLM幻觉确实是可能的问题。为缓解这些问题，可以采用以下策略：

设计有效的通信协议

在MAS领域，必须通过三个维度的镜头来审视通信，包括“何时”、“什么”和“如何”。这些维度共同决定了智能体之间的交互时机、内容和方式，从而成为系统在复杂问题解决和协调努力中有效性的的关键因素。

图11：提高通信效率的方法分类。

可以识别出四个级别的智能体通信：

消息语义：每条消息的含义。
消息语法：每条消息的表达。
智能体通信/交互协议：对话的结构。
传输协议：智能体发送和接收消息的方法。

历史上，基于RL的智能体通过隐式学习进行通信。相比之下，基于LLM的智能体可以通过NLP进行通信，为人类提供了一种更透明、更明确的交互方式。因此，就基于LLM的MAS而言，关于消息语义和传输协议的问题变得不那么突出。

消息语法的问题引起了对智能体通信语言（ACL）的关注，它基于Searle提出的言语行为理论[184]。已经出现了两个著名标准：知识查询和操作语言（KQML）[185]和智能体物理代理基金会（FIPA）提出的ACL3。

1996年，FIPA为异构和交互智能体以及基于智能体的系统制定了标准。FIPA的ACL包括22种执行性行为，或通信行为，如Inform和Request。这些执行性行为不是孤立的实体，而是作为智能体之间结构化对话协议的组成部分。这些协议由预定义的规则进行规范，这些规则概述了执行性使用顺序和时机，以实现特定的集体目标。例如，FIPA-ACL可以构建FIPA-Auction-English协议和FIPA-Auction-Dutch协议。

实施明确定义的通信协议，确保智能体交互遵循一致的结构和语义，减少歧义和误解，增强通信效率。采用嵌入[186]或结构化输出格式，如JSON，可以进一步增强这些优势。

采用中介模型

在基于LLM的MAS中，LLM之间的广泛交互可能导致成本增加和参与时间延长。中介模型充当一个甄选机制，帮助确定LLM之间交互的必要性，从而减少冗余的通信开销，提高系统的整体效率。中介模型决定参与交互的因素包括任务复杂性、智能体之间关联程度和通信成本。现有的研究已经见证了中介模型的实施，Hu等人[52]、Karimpanal等人[121]的研究深入优化了智能体和LLM之间的成本效益、智能交互。

减少LLM中的不准确输出

LLM经常倾向于生成过度夸张或毫无根据的信息。Wei等人[187]介绍了一种简单方法，通过在辅助微调阶段使用合成数据来减少过分夸张的输出。Rawte等人[188]对LLM中的幻觉进行了全面分析，并提出了应对技术的综述。Chain of Verification (CoVe)[189]试图通过提示模型首先产生初步响应，然后制定验证查询以事实核查草稿，独立解决这些查询，并最终生成经过验证和改进的响应，来最小化幻觉。

通过实施这些策略，可以有效地解决基于LLM的MAS中的通信无效和LLM幻觉问题。这最终将提高系统性能和稳定性。

4 性能评估

4.1 数据集

大多数基于LLM的智能体不需要对LLM进行进一步训练，某些特定任务的数据集也不是公开可用的。因此，我们只列出了公开可用且广泛使用的数据集。

表3：研究中使用的数据集

4.2 基准测试

目前，没有广泛使用的基于LLM的智能体基准测试，尽管一些研究在比较分析他们的基于LLM的智能体时会使用其他人的智能体。此外，研究人员正在努力提出可能作为未来评估标准的基准测试。

ToolBench [74]是一个针对工具使用的指令调整数据集，包括单工具和多工具场景。TE [199]评估语言模型模拟人类行为各个方面的能力。Akata等人[200]试图理解LLM的社会行为。它为机器的行为博弈论奠定了基础，强调了理解LLM在交互社会环境中的运作对社会的重大价值。Ziems等人[201]提供了一份最佳实践的汇编，以及一个全面的评估流程，以衡量13种语言模型在24个代表性CSS基准测试中的零样本性能。

AgentSims [143]提供了一个用于LLM评估的开源平台。Drori等人[41]涉及整理来自麻省理工学院（MIT）最大的数学课程和哥伦比亚大学计算线性代数的问题集，以评估数学推理。BMTools [196]建立了工具使用框架和评估标准。SmartPlay [202]为基于LLM的智能体提供了一个具有挑战性的基准测试，包括六个不同设置的独特游戏，提供高达20种评估配置和无限环境变化。MLAgentBench [203]是一系列设计用于评估AI研究智能体的ML任务，促进读写文件、执行代码和检查输出等操作。MetaTool [204]用于评估LLM是否自觉使用工具，并能选择合适的工具。LLM-Co [205]评估智能体推断合作伙伴意图、参与推理行动和在游戏环境中进行长期协作的能力。

5 应用前景图

5.1 自然科学

5.1.1 数学

许多最近的研究集中在数学中的智能体和多智能体系统。例如，Kennedy和Eberhart[206]提出了基于多智能体框架的粒子群优化算法，这是一种全局优化技术，已广泛用于解决数学、工程和计算中的优化挑战。Macal和North[207]讨论了基于智能体的建模和仿真方法及其在复杂数学模型中的实现。Crainic和Rousseau[208]探讨了基于智能体的方法在组合优化问题中的应用，特别是关于设计多商品、多模式运输网络。

目前，基于LLM的智能体在数学领域的研究主要集中在提高推理能力以及支持理论推导上。例如，Math Agents[40]利用LLM研究、发现、解决并证明数学问题。Zhou等人[129]引入了一种创新且高效的提示技术，称为基于代码的自我验证，进一步增强了GPT-4代码解释器的数学推理能力。LeanDojo[209]是一种工具，可以与Lean持续交互，纠正现有定理证明工具中的证明检查错误。Dong等人[210]通过97次严格的“苏格拉底式”推理，使用GPT-4最终确定“P=NP”。Yang等人[211]设计了一个系统，能够仅使用一系列原始网络文本，自主生成有效、原创和有价值的假设。ToRA[212]展示了一系列集成工具的推理智能体，它们利用自然语言推理并调用外部工具解决复杂的数学问题。COPRA[213]用于形式化定理证明，将GPT-4作为其状态回溯搜索策略的关键部分。这种方法可以在搜索过程中选择证明策略，并从外部数据库检索公理和定义。

基于LLM的智能体在即将到来的数学研究中展现出巨大的前景，包括：

辅助理论推导：基于LLM的智能体理解基础领域（如数学和物理）的现有理论，并促进人类在进一步推导和验证方面的努力，最终推进科学探究。
符号和数值计算：基于LLM的智能体可以用于符号和数值计算，支持研究人员解决各种数学挑战。智能体可以执行许多数学程序，包括解方程、积分、微分等。多智能体系统可以通过将复杂的数学问题分解为多个子问题，提高计算的效率和精度。

尽管基于LLM的智能体在数学理论推导和计算方面取得了一些成就，但持续改进LLM的数学推理能力以及设计更有效的数学知识表示，以提高它们解决复杂数学问题的准确性和效率，仍然至关重要。此外，基于LLM的智能体在解决数学问题时的可解释性和可靠性也非常重要。探索补充方法以增强智能体的可解释性，使其能够为用户提供更清晰和可靠的解决方案至关重要。同时，对智能体推理结果的监督和验证可以确保它们在实际应用中的可靠性。

5.1.2 化学和材料

在以前的研究中，Gómez-Bombarelli等人[214]提出了1600万个有机发光二极管材料候选者，通过高保真度模拟从广泛的分子库中有效筛选。MolDQN框架[215]将化学领域专业知识与强化学习方法结合起来，明确描述了分子修改，确保100%的化学有效性。You等人[216]提出了一个基于通用图卷积网络的图卷积策略网络（GCPN），用于通过强化学习生成目标导向的图，旨在发现具有所需属性（如药物相似性和合成可访问性）的新分子。Beanini等人[217]介绍了Graphium图机器学习库，简化了构建和训练多任务和多级分子数据集的分子机器学习模型的过程。

在当前关于化学和材料科学中基于LLM的智能体的研究中，Coscientist[218]利用LLM的功能以及互联网和文档搜索、代码执行和实验自动化等工具，能够自主设计、规划和执行现实世界的化学实验。ChatMOF[39]致力于预测和生成金属有机框架（MOFs），包含三个核心组件：智能体、工具包和评估器。这些组成部分擅长管理数据检索、属性预测和结构生成。ChemCrow[38]通过访问化学相关数据库，在生物合成、药物发现和材料设计等领域执行各种化学任务，从而加速更有效的研究。基于LLM的智能体在以下方面也显示出相当大的潜力：

分子模拟和化学反应优化：基于LLM的智能体可以通过模拟分子结构和化学反应来推进化学和材料科学研究。通过检查各种反应路径和条件，这些智能体可能找到有效的策略来合成新材料或提高现有材料的性能。
化学实验自动化和智能化：基于LLM的智能体可以促进化学实验的自动化，通过检索信息、查询专业数据库，并制定和实施针对特定要求的实验计划，从而获得有关化学反应和材料属性的数据。此外，多智能体系统可以通过协作合作和共享实验数据及经验，提高实验的效率和精度。
材料设计和优化：在材料科学研究中，基于LLM的智能体可以辅助模拟和优化材料属性。通过自主探索不同的材料组合和结构，并利用LLM的强大泛化能力来模拟和预测新材料的属性，智能体可以发现具有卓越性能的创新材料。这加速了材料设计过程并提高了整体效率。

尽管现有的基于LLM的智能体在化学和材料科学研究中取得了一些成功，但进一步提高模型的准确性和可靠性仍然是一个重大挑战。未来的研究应该专注于提高LLM处理复杂化学和材料问题的能力，以提高预测和生成化学反应、材料属性等方面的准确性。

5.1.3 生物学

近年来，在生物学领域出现了许多成熟的关于智能体和多智能体系统的研究。例如，Bonabeau等人[219]探讨了基于多智能体模型的群体智能理论和应用，包括遗传算法、蚁群算法和粒子群算法。DeAngelis和Mooij[220]提供了生态研究中基于个体的建模方法的全面概述，模拟了生态系统中物种的相互作用和环境影响。Wilensky和Rand[221]介绍了基于智能体的建模方法及其在自然、社会和工程复杂系统中的应用，包括使用智能体系统模拟海洋生态系统和大气环流等地理科学问题。

Jain等人[222]提出了一种主动学习算法，使用GFlowNets作为多样化候选解决方案的生成器，旨在产生具有最佳特性的生物序列，如蛋白质和DNA序列。

目前，关于生物学中基于LLM的智能体的研究是有限的。BioPlanner[223]是一种自动化评估方法，用于评估LLM在生物学领域协议生成和规划任务中的性能。OceanGPT[224]利用多智能体协作自动生成海洋科学各个子领域的数据。尽管如此，未来在以下领域有大量的研究潜力：

生态系统建模：基于LLM的智能体可以模拟生态系统内物种的相互作用和环境影响，帮助研究人员理解生态系统的结构和功能。例如，通过模拟各种智能体的行为和相互作用，包括生物个体、种群和环境，可以分析生态系统的稳定性、多样性和进化过程。
群体行为和集体智能：通过模拟群体内的行为和相互作用，可以阐明群体行为、集体智能、群体遗传学和进化的基本概念。特别是，通过模拟多个智能体的行为和相互作用，例如分子或生物群体，可以检查群体行为的形成、协调、适应和进化，从而更好地理解支配整个系统功能运作的机制。
细胞生物学和分子生物学：基于LLM的智能体可以模拟细胞内的分子机制和信号通路，随后研究生物分子之间的相互作用和调控。例如，通过模拟多个智能体的行为和相互作用，如蛋白质、核酸和代谢物，可以分析细胞内信号转导、基因表达调控和代谢途径等生物过程。

生物系统以其固有的复杂性而闻名，这种复杂性表现在各个层次的级别、时空尺度和时间范围上。鉴于此，使用LLM的智能体必须展示出管理这种复杂性的能力。这包括考虑不同生物实体的动态行为和相互作用，包括个体生物、种群及其各自的生态背景。此外，生物学领域的数据通常具有庞大、多样、异构且固有噪声的特征。这在包含基因组、表型和环境信息的数据集中很明显。因此，基于LLM的智能体需要具备有效处理大量异构数据并从中提取有价值的见解和知识的能力。

5.1.4 气候科学

在大气研究中，智能体系统的使用主要涉及阐明气候行为和调查气候能源经济。Jager[225]提出了一种新的基于智能体的建模方法，阐述了其在解读与气候相关的行为动态方面的效用。此外，Castro等人[226]全面检查了以气候能源政策为中心的研究，强调了通过实施基于智能体的建模方法来减少排放和节能。

在当前的研究格局中，Kraus等人[227]利用基于LLM的智能体从ClimateWatch4中提取排放数据，从而提供了更准确和可靠的与气候变化关键方面相关的数据。基于LLM的智能体可以利用分布在不同地理区域的传感器网络来收集大气数据（例如，温度、压力、湿度、风速），并通过基于LLM的智能体实时分析和处理这些数据来进行气候变化预测。这种方法可以进一步预测或发出大气现象和气候变化的警报。相反，在气候模型模拟和优化领域，基于LLM的智能体可以模拟各种大气过程和事件，如大气环流、气候系统和空气污染的传播。通过不断优化和修改智能体之间的交互规则，模型可以被调整以更准确地反映现实世界场景，最终产生更精确的预测和解决方案，用于大气科学研究。在气候模拟过程中，MAS的日益复杂性对计算效率提出了重大挑战。提高基于LLM的智能体的规划和反思性能对于在有限的计算资源内实现更精确的气候模拟和预测至关重要。此外，由于大多数大气数据是数值型的，提高LLM对数值的理解和计算能力将显著影响系统性能。

5.2 通用自主智能体

5.2.1 通用任务助手

目前关于通用任务助手的研究主要集中在基于LLM的智能体系统或框架上。通用智能体[18]是一个多模态、多任务、多实体的通用智能体，能够执行各种任务，如玩Atari游戏、命名图像、聊天、用真正的机械臂堆叠积木等。HuggingGPT[155]集成了来自机器学习社区不同领域的各种模块和AI模型来执行任务规划。ModelScope-Agent[228]是一个实用应用的通用、可定制的基于LLM的智能体框架，提供了一个用户友好的系统库。LangChain[77]是一个开源框架，通过自然语言通信和协作实现高效的软件开发。XLang[76]为基于LLM的智能体提供了一套全面的工具和用户界面，支持数据处理、插件使用和网络场景。BabyAGI[59]根据预定义的目标创建任务，利用LLM创建新任务，并存储和检索任务结果。AutoGPT[75]是一个自动化智能体，能够分解目标并在循环中执行任务。AgentVerse[84]能够基于执行不同角色的多个基于LLM的智能体进行快速创建仿真实验。LMA3[229]是一种利用LLM支持各种抽象目标表示、生成和学习的方法。Kani[230]通过提供聊天交互的核心构建块，包括模型接口、聊天管理和强大的功能调用，帮助开发人员实现各种复杂功能。

尽管在利用基于LLM的智能体进行通用任务助手的研究中取得了显著进展，但仍存在几个挑战。一个挑战是确定如何明智地控制任务分解的粒度，同时保持任务解决效率，最小化令牌消耗和降低计算资源需求。另一个挑战涉及内存利用和信息整合：设计方法以更有效地使用存储在内存中的信息，整合来自不同来源的知识和数据，并提高基于LLM的智能体在解决问题中的准确性和效率。此外，开发额外的工具和技术以增强基于LLM的智能体在各种情境下的适应性和可扩展性至关重要。最终，为基于LLM的智能体配备长期学习和适应能力对于在不断演变的任务和环境中持续改进性能至关重要。

未来的研究可能会探索更高效的自动化任务分解和优化算法，使基于LLM的智能体能够在面对复杂任务时自主执行合理的任务分解，从而提高问题解决的速度和质量。此外，将多模态信息处理技术整合到智能体中将有助于处理和整合来自不同模态的信息，如图像、声音和视频，从而丰富任务助手的能力。

5.2.2 工作/研究助手

在工作和研究工作中，可能需要积累大量的材料和文献，然后通过理解进行总结，实验验证后的观点提炼，最终将它们汇编成报告、论文、演示文稿或叙事和电影作品。这些步骤也可以委托给基于LLM的智能体，它们可以浏览网页、数据库和文献库，通过LLM进行总结，为验证生成实验代码，然后起草结论。

在一般文本生成中，ChatEval[16]采用了一个多智能体辩论框架，提高了处理复杂任务的效率和效果。Zhu等人[231]提出了一个启发式强化学习框架，可以在不需要偏好数据的情况下显著提高性能。在创建研究报告、故事和电视剧方面，Maas等人[232]提出了一种基于LLM、定制扩散模型和多智能体模拟的方法，以生成高质量的情节内容。GPT Researcher[61]是一个能够产生详细、准确和无偏见的研究报告的自主智能体。Boiko等人[65]提出了一个智能体系统，能够自主设计、规划和执行复杂的科学实验。在特定领域的应用中，Mehta等人[42]构建了一个智能体，学习理解建筑师的语言指令，并使用它们在网格上放置块，旨在构建3D结构。LayoutGPT[233]与视觉生成模型合作，在各种领域产生合理的布局，从2D图像到3D室内场景。MusicAgent[234]结合了与音乐相关的工具和自主工作流程，包括音色合成和音乐分类，以满足用户需求。MemWalker[235]是一个为长文本阅读设计的交互式智能体，它使用一种技术将广泛的上下文转换为摘要节点的树结构。当接收到查询时，智能体遍历这棵树以找到相关信息，并在累积了足够的信息后生成响应。

与通用任务助手相比，工作和研究助手需要更强大的内存和知识整合能力。增加基于LLM的智能体的内存容量对于有效地组织、总结和检索处理大量文本材料后的信息至关重要。此外，有效利用特定领域的工具，如代码和模拟器，对于增强任务完成和准确性至关重要。基于LLM的智能体还应该展示更全面的跨领域知识和技能，以适应不同的工作和研究需求。最终，创新和原创性构成了重大挑战，因为需要增强基于LLM的智能体在工作和研究协助中的创造力和原创性，同时避免生成重复或过于相似的内容。

基于LLM的智能体在未来的工作和研究协助中可能会进一步探索音乐和电影制作等艺术创作领域，并结合人机协作，利用人类知识创作更具原创性的作品，从而为人类工作和创造力提供更大的便利。

5.3 社会科学

5.3.1 经济与金融

现有的智能体和多智能体系统已应用于经济和金融研究。Arthur等人[236]利用多智能体模型构建了一个人工股票市场，探索了资产定价、投资者行为和市场波动等金融问题。Tesfatsion和Judd[237]全面介绍了基于智能体的计算经济学方法及其在各个经济领域的应用。Johanson等人[238]展示了智能体利用MARL在太空中生成资源并以自己偏好的价格进行交易的能力。AI Economist[239]提出了一个具有竞争压力和市场动态的经济模拟环境，通过展示在经济上一致的方式运作基本税收系统，包括学习和专业智能体的行为和专业化，来验证模拟。Tilbury[240]回顾了传统基于智能体的技术在经济建模中面临的历史障碍。AI Economist: Improving Equality and Productivity with AI-Driven Tax Policies介绍了一种基于经济模拟的双层深度强化学习方法，用于学习动态税收政策，智能体和政府进行学习和适应。

目前，许多研究集中在经济和金融领域的基于LLM的智能体。Horton[30]通过将LLM置于不同的经济场景中并探索它们的行为，将其行为与实际人类行为进行比较。这使研究人员能够研究独裁者游戏和最低工资问题等模拟中的经济行为，从而获得对经济学的新见解。Phelps和Ranson[241]研究了LLM在委托代理冲突中的响应，基于LLM的智能体在一个简单的在线购物任务中覆盖了他们委托人的目标，为委托代理冲突提供了明确的证据，并强调了将经济原则纳入对齐过程中的重要性。AucArena[151]展示了LLM-based智能体在拍卖中的有效参与，有效管理预算，维护长期目标，并通过明确的激励机制提高适应性。

在博弈论领域，Suspicion-Agent[242]在各种不完全信息纸牌游戏中表现出卓越的适应性。它表现出强大的高阶心理理论能力，表明它可以理解他人并有意影响他们的行为。

许多研究已经调查了在金融交易场景中使用基于LLM的智能体。AlphaGPT[243]引入了一个用于Alpha挖掘的交互框架，该框架采用启发式方法理解定量研究人员使用的概念，随后生成创新的、有洞察力的和高效的Alphas。TradingGPT[244]提出了一个新颖的基于LLM的MAS框架，具有分层记忆，通过模拟人类认知过程来增强金融交易决策。这种方法使智能体能够优先考虑重要任务，整合历史行动和市场洞察，并参与智能体间的讨论，提高响应性和准确性。

鉴于基于LLM的智能体在文本理解增强和复杂决策能力方面的优势，利用这些智能体进行经济和金融研究具有相当大的潜力。相关探索可能包括以下领域：

市场模拟和仿真：建立基于LLM的智能体来模拟各种市场参与者的行为，如供需双方、竞争对手和监管机构，可以使研究人员预测和模拟产品价格、市场份额、市场结构和交易完成率等数据。行为可能包括购买、竞争性投标、讨价还价和协作招标。
金融市场分析：通过模拟金融市场参与者的行动，包括投资者、机构和监管机构，基于LLM的智能体可以提供有关市场波动和风险的有价值的见解。例如，模拟投资者交易行为和市场信息传播过程可以提供有关股票价格、汇率和利率波动的预测。
宏观经济和政策模拟：基于LLM的智能体可以模拟财政和货币政策的实施过程，包括政府、企业和个人等各种经济参与者。这使智能体能够预测宏观经济指标的变化，包括GDP、通货膨胀率和失业率。
社会经济网络分析：通过模拟社会经济网络中的信息传播、资源分配和信任建立等过程，基于LLM的智能体可以更深入地了解网络经济的演变和影响。具体来说，涉及消费者、企业和政府等多样化智能体的模拟可以提供有关网络效应、信息不对称和市场失灵的见解。

对于经济学中的基于LLM的智能体，通常模拟人类或经济参与者的决策，智能体互动的行动空间和智能体的状态起着至关重要的作用，直接影响实验结果。有效地表示智能体互动的行动空间和智能体的状态，以更准确地模拟经济参与者的决策过程，是一个重大挑战。同时，LLM拟人化的可信度也是一个主要挑战。如果进行大规模宏观经济分析，可能需要许多基于LLM的智能体，这为系统性能或令牌消耗带来了困难。一种方法是使用强化学习方法来控制和减少与LLM的交互次数。

5.3.2 政治学

在政治领域之前的智能体研究中，Epstein和Axtell[245]利用MAS构建了一个人工社会，研究了政治科学中的政治传播和社会运动的形成和演变等社会现象。Lustick和Miodownik[246]讨论了MAS在比较政治科学研究中的应用，包括政治制度、政治决策和政治稳定。Tsvetovat和Carley[247]介绍了多智能体模型在研究复杂社会技术系统中的应用，包括政治科学中的政治传播和政治决策。Trott等人[248]利用双层RL和数据驱动的模拟实现了有效、灵活和可解释的政策设计。

在当前基于LLM的智能体研究中，这些智能体被用来探索政治参与者的潜在决策和沟通情况。Ziems等人[201]使用基于LLM的智能体帮助理解政治家演讲的内容和策略。Bail[249]展示了基于LLM的智能体可以检测意识形态、预测投票结果和识别模式。Mukobi等人[250]提出了一种非零和的变体的外交棋游戏。在这个变体中，智能体必须在军事征服和国内福利之间平衡投资。

基于LLM的智能体在政治领域可以探索以下领域：

政治模拟和预测：通过模拟政治过程中各种参与者的行为和互动，如政党竞争、选民行为和政策制定过程，基于LLM的智能体可以预测政治事件的发展趋势、选举结果和政策效果。
政治决策分析：利用基于LLM的智能体模拟不同政治决策过程中的行为和互动，可以评估各种政策选择的优缺点和影响。这种方法允许研究人员模拟政府、政党和利益集团之间的互动，为政策制定者提供有关政策效果的有价值信息。
国际关系研究：利用基于LLM的智能体模拟国际政治中国家之间的互动和冲突，研究人员可以探索国际贸易、军事冲突和外交互动等各种方面。这种方法有助于理解国际政治的复杂性和潜在风险。

在政治研究中，基于LLM的智能体可能需要确保沟通效率，同时避免过度礼貌和无效沟通，增强基于LLM的智能体在政治科学研究中的实用应用价值。同时，准确模拟政治环境的复杂性和不确定性，提高基于LLM的智能体在政治领域研究的准确性和可靠性也是一个挑战。当然，还需要确保基于LLM的智能体的行为符合道德和伦理要求，避免对社会产生负面影响。

5.3.3 社会学

在社会学领域之前的多智能体研究中，Epstein和Axtell[245]利用多智能体模型构建了一个人工社会，研究了社会学领域中社会运动、文化演变和社会变化等社会现象的形成和演变。Macy和Willer[251]介绍了计算社会学和基于智能体的建模方法，包括社会学中的社会网络、社会规范和社会影响。Gilbert和Troitzsch[252]提出了社会科学家使用模拟方法的理论和实践，包括多智能体模型在社会学研究中的应用。Hasan等人[253]讨论了可持续发展的支柱（例如，社会、环境和经济）。

目前，基于LLM的智能体主要集中在模拟人类行为和社交互动上。Generative Agents[63]提出了一种多基于LLM的智能体的交互模式，以实现对人类行为的可信模拟。Gao等人[33]使用提示工程和调整技术创建了一个基于LLM的MAS，模拟了现实世界社交网络数据，包括情感、态度和互动行为。Li等人[34]研究了LLM驱动的社交机器人在类似Twitter的社交网络中的行为特征。结果表明，这些机器人可以通过有害行为伪装并影响在线社区。Liu等人[254]提出了一种新的学习范式，使语言模型能够从模拟社交互动中学习。Feng等人[255]研究了基于LLM的智能体在精心设计的环境和协议中模拟可信人类行为的能力。Wei等人[256]评估了多方群聊对话模型的性能，探索了提高模型性能的方法，并解决了轮流发言和对话连贯性的挑战。

另一方面，Li等人[35]开发了一个意见网络动态模型，以编码LLM的观点、个体认知可接受性和使用策略，模拟LLM在各种场景中对意见动态的影响。LLM-Mob[257]利用LLM的语言理解和推理能力，通过引入历史停留和上下文停留的概念来分析人类迁移数据，捕捉人类运动的长期和短期依赖性，并使用预测目标的时间信息进行时间感知预测。Egami等人[258]利用LLM的输出对社会科学中的文档标签进行下游统计分析，同时保持统计属性，如渐近无偏性和准确的不确定性量化。Ghaffarzadegan等人[259]探讨了利用生成性人工智能构建具有复杂反馈的计算模型的新兴机会，这些模型可以描绘社会系统中的个体决策。Lyfe Agents[260]评估了智能体在各种多智能体场景中的自我激励和社会能力。该方法结合了低成本和实时响应性，同时保持了智能和目标导向。

这些研究为基于LLM的智能体在模拟人类行为和社交互动方面提供了各种方法和框架。由于基于LLM的智能体能够模拟人类交流和模仿人类思维，这些智能体可以模拟可信的人类行为，参与多方群聊，学习模拟环境中的社交互动，处理记忆和规划任务，并在意见动态中展现人类行为特征。

然而，这些研究也揭示了挑战，例如确保基于LLM的智能体在多方群聊中保持轮流发言和对话连贯性，以提高模拟人类行为和社交互动的真实性，以及有效地在模拟环境中训练与社会一致的语言模型，以提高基于LLM的智能体在社交互动中的适应性和准确性。此外，基于LLM的智能体必须实现每个人类参与者的多样性和个性化模拟，以更好地反映现实世界的社会现象。未来的研究可能会继续探索这些挑战，并提出更有效的方法来提高基于LLM的智能体在模拟人类行为和社交互动中的性能。

5.3.4 法律领域

在法律领域之前的智能体和多智能体系统研究中，Bench-Capon和Sartor[261]利用多智能体模型检查法律推理过程中的理论和价值观，为法律决策和法律系统设计提供了新的理论和方法。Branton[262]使用多智能体模型构建了一个计算法律分析模型，研究了法律规则和先例在法律推理中的作用。

目前，基于LLM的智能体在法律领域的研究是有限的。Blind Judgement[37]引入了基于多LLM的智能体，用于模拟2010年至2016年美国最高法院的司法决定，训练了九个独立的模型来模拟不同大法官的意见。Shui等人[263]评估了LLM在与专业信息检索系统集成时，在基于案例的学习和法律领域问答中的有效性。

考虑到基于LLM的智能体具有强大的文本处理和理解能力，以及记录历史案例和决定的记忆机制，探索法律领域具有巨大的潜力，例如：

自主法律助手：基于LLM的智能体整合法律条款和历史案例审查，为当前案件提供文件撰写和辅助建议。
法律决策分析：基于LLM的智能体模拟法律决策过程中各种参与者的行为和互动，包括法官、律师和诉讼当事人，评估不同法律政策和法律系统的优缺点、影响、公平性和效率。

由于法律领域通常涉及大量的文本材料，基于LLM的智能体中的LLM需要更长的上下文和更有效的记忆能力。此外，有效地表示法律知识，包括法律条款、历史案例和法律原则，并在阅读和理解法律后在基于LLM的智能体中执行准确的法律推理，对于做出决策或模拟至关重要。

5.3.5 心理学

在心理学领域的先前研究中，Sun[264]全面介绍了在认知建模和社交模拟中应用多智能体互动，包括心理学中的认知过程、社交互动和情感动机。Marsella和Gratch[265]利用智能体模型模拟情感评价过程，从而更深入地理解情感心理学的基本原理。

目前，基于LLM的智能体主要集中在心理健康支持和心理实验模拟的应用上。Ma等人[266]对基于LLM的智能体支持的心理健康支持应用进行了定性分析。研究发现该应用有助于提供按需的、无偏见的支持，增强用户信心，并促进自我发现。然而，它在过滤有害内容、保持一致的沟通、记忆新信息和减轻用户过度依赖方面面临挑战。Aher等人[199]利用基于LLM的智能体模拟心理实验，揭示了LLM中可能影响下游应用的一些“超精确失真”。Akata等人[200]利用基于LLM的智能体模拟重复博弈论中的游戏，发现在强调自我利益的游戏中，尤其是囚徒困境游戏中，基于LLM的智能体表现非常出色，并表现出优先考虑自我利益而非协调的心理倾向。这些研究为心理健康支持和心理实验模拟提供了各种方法和框架。这些基于LLM的智能体在提供心理支持、复制心理发现和模拟博弈论实验方面具有广泛的应用前景。Humanoid agents[267]构成了一个平台，用于开发模拟人类认知、交流和行为模式的智能体。这些智能体结合了基于特定因素（如满足基本需求、情感和与他人互动）的逻辑推理能力。Zhang等人[268]研究了基于LLM的多智能体社会镜像人类协作智能的潜力。

基于LLM的智能体在心理学领域可以在未来探索以下领域：

心理治疗和咨询：通过模拟心理治疗和咨询过程中的互动和影响，基于LLM的智能体有助于研究人员更深入地理解心理治疗和咨询心理学的基本原理，支持接受心理治疗的患者。
认知建模：通过模拟感知、记忆、思维和决策等认知过程，基于LLM的智能体为认知心理学的核心原理提供了见解。具体来说，这些智能体可以通过模拟个体在各种情境下的认知过程来分析认知偏差和策略。
情感和动机建模：利用LLM和记忆来模拟情感和动机过程，基于LLM的智能体使研究人员能够通过检查个体的情感反应、兴趣和驱动力来探索情感和动机心理学的基本原理。

然而，这些研究也揭示了挑战，例如有效地过滤有害内容、保持一致的沟通、实现更具人类特征的沟通或模拟以及解决用户过度依赖问题。未来的研究可能会继续探索这些挑战，并提出更有效的方法来提高基于LLM的智能体在心理健康支持和心理实验模拟中的性能。

5.3.6 教育

在现有的智能体和多智能体研究中，Woolf[269]介绍了构建智能交互式导师的方法和技术，包括使用智能体和多智能体系统实现个性化教学和自适应学习。Soller和Lesgold[270]提出了使用多智能体模型分析在线知识共享互动的计算方法，以改善教育组织和管理。

由于基于LLM的智能体具有强大的自然语言交互能力，它们有助于与人类进行有效沟通，这可以用于协助人类学习或模拟教育领域的课堂。有关研究协助的更多信息，请参阅研究协助部分。Math Agents[40]将文献中的数学公式转换为LaTeX和Python格式，利用LLM作为语言用户界面和人工智能助手，促进数学与计算机科学之间的互动。AgentVerse[84]是一个基于LLM的MAS框架，模拟NLP课堂教育。CGMI[168]是一个通用的多智能体交互框架，模拟教师和学生之间的各种课堂互动，实验结果表明教学方法、课程和学生表现与真实课堂环境非常相似。此外，基于LLM的智能体可以模拟未来教育政策和系统的实施过程，协助研究人员评估不同教育策略的优势、劣势和影响。例如，通过模拟政府、学校、教师和学生的行为，MAS可以预测学术投入、质量和公平性的变化。

在教育领域，基于LLM的智能体面临的主要挑战是输出无害、更可信的内容，以提高教育质量。另一个挑战是多样性和个性化：教育针对的是多样化的学生群体，而在基于LLM的智能体系统中为每个学生实施个性化教学和自适应学习仍然是一个重大挑战。此外，尽管LLM拥有强大的自然语言交互能力，但在理解学生的问题、表达和情感以更好地满足他们的学习需求方面仍有改进空间。

5.3.7 管理

在现有的智能体和多智能体系统领域的研究中，North和Macal[271]全面介绍了应用基于智能体的建模和仿真来管理业务复杂性。这包括管理研究中的组织行为、人力资源管理和市场营销。Bonabeau[272]介绍了基于智能体的建模方法及其在模拟人类系统中的应用，包括组织行为、供应链管理和金融市场。Liu等人[273]将MARL应用于多级库存管理问题，旨在最小化整个供应链的成本。

目前，基于LLM的智能体在管理领域主要关注模拟公司和组织的运营。例如，MetaGPT[67]和ChatDev[66]模拟软件公司中的多个角色，进行协作软件开发。MetaAgents[274]使用模拟的招聘会环境作为案例研究，评估智能体的信息处理、检索和协调能力。结果表明，这些智能体在理解项目工作流程、确定合适的合作者和委派任务方面表现出色。可以进一步探索以下领域：

组织行为和协作工作：通过模拟组织中员工、团队和经理的行为和互动，基于LLM的智能体作为研究人员研究协作工作流程的有价值的工具，增强了对组织结构、文化、领导力和效率的理解。
公司辅助运营：通过承担报告、信息总结、处理、审批和决策等任务，基于LLM的智能体有助于提高公司和组织的运营效率，实现更高效、公平和透明的公司运营。
供应链管理和物流优化：研究人员可以有效地分析和优化供应链管理和物流，通过使用基于LLM的智能体来模拟资源分配和协作决策过程。这是通过模拟供应商、制造商、分销商和零售商的行为和互动来实现的，允许基于LLM的智能体解决供应链库存管理、运输计划和需求预测问题。

管理问题通常涉及多个层次、角色和目标。有效地解决基于LLM的智能体中的这些复杂性和可扩展性问题仍然是一个重大挑战。此外，管理研究通常依赖于各种历史和实时数据形式。基于LLM的智能体需要有效地理解不同格式的历史数据。

5.4 工程系统

5.4.1 计算机系统

在计算机科学中，有许多关于智能体和多智能体系统的成熟研究。这些研究主要关注计算机操作任务、人机交互、代码生成和测试、网络安全、游戏和推荐系统应用。

计算机操作：RCI[138]利用自然语言命令指导LLM完成计算机任务。Mobile-Env[141]基于Android移动设备环境，使智能体能够观察Android操作系统的屏幕截图，查看层次结构，并与Android应用程序交互。
人机交互：Lin等人[275]介绍了一种名为决策导向对话的协作任务。在这些任务中，AI助手通过自然语言与人类协作，协助做出复杂决策。SAPIEN[276]引入了一个由LLM驱动的高保真虚拟代理平台，允许与用户进行13种语言的开放领域对话，并通过面部表情和声音调节表达情感。在Web交互中，WebAgent[277]提出了一个模型，集成了两个语言模型——领域专家语言模型和通用语言模型——用于在真实网站上进行自主导航。WebArena[139]是一个独立的、自托管的Web环境，用于构建自主智能体。SheetCopilot[142]利用自然语言促进与电子表格的交互，将复杂请求转换为可操作的步骤。
网络安全：Rigaki等人[278]提出了一种使用LLM作为攻击代理的方法，应用于强化学习环境。
代码生成：GPT-Engineer[43]易于适应和扩展，允许基于LLM的智能体根据提示生成整个代码库。Dong等人[68]允许多个LLM扮演不同角色，形成一个无需人类干预即可协作完成代码生成任务的团队。ChatDev[66]探索了使用LLM驱动的端到端软件开发框架，涵盖需求分析、代码开发、系统测试和文档生成，提供了一个统一的、高效的、成本效益高的软件开发范式。CAAFE[279]利用LLM为表格数据集的特征工程生成和执行代码。AutoGen[83]展示了一个自主的基于LLM的智能体，根据提示生成整个代码库。
软件测试：LLift[145]是与静态分析工具和LLM的接口，使用精心设计的智能体和提示实现完全自动化。Feldt等人[280]提出了一个自主的基于LLM的测试智能体，提供了一个对话框架，帮助开发人员进行测试，并强调了LLM在测试中的幻觉的好处。RCAgent[281]是一个工具增强的智能体，用于实用和注重隐私的工业根本原因分析（RCA），在云环境中。
推荐系统：RecAgent[282]使用LLM作为大脑，推荐模型作为工具，创建了一个多功能和交互式的推荐系统。Agent4Rec[283]包括用户档案、记忆和行动模块，并通过网页交互提供个性化的电影推荐。
角色扮演游戏：VOYAGER[50]是由LLM驱动的Minecraft中的终身学习智能体，不断探索世界，获得各种技能并进行发现。GITM[51]提出了一个框架，通过将长期和复杂的目标转换为一系列最低级别的键盘和鼠标操作，实现高效灵活的操作。Junprung[284]提出了两个模拟人类行为的智能体：一个双智能体谈判和一个六智能体谋杀之谜游戏。Zhou等人[47]提出了一个对话塑造框架，允许LLM通过对话从NPC获取有用信息，并将其转换为知识图谱，然后使用故事塑造技术加速RL智能体收敛到最优策略。Clembench[285]开发了一个灵活且可扩展的框架，使用对话游戏作为测试工具，快速评估广泛的模型。Tachikuma[286]提出了将虚拟游戏主持人（GMs）整合到智能体的世界模型中。GMs在监督信息、估计玩家意图、提供环境描述、提供反馈和解决当前世界模型的局限性方面发挥着至关重要的作用。Xu等人[170]在不调整LLM参数的情况下有效地进行了狼人杀游戏，并在实验中展示了战略行为。MindAgent[181]提出了一个新的游戏场景和相关的基准测试，促进了多智能体协作效率的评估，并允许同时监督参与游戏的多个智能体。
游戏生成：Chen等人[287]设计了一个基于文本的冒险游戏想象游戏系统，根据ChatGPT生成与想象游戏相关的故事。GameGPT[288]利用双智能体协作和分层方法，使用多个内部字典自动化游戏开发。

尽管取得了一些成就，但LLM-based智能体在计算机科学中仍存在许多研究方向和挑战。例如，在代码生成和测试中，LLM的编码能力至关重要，如何提高基于LLM的智能体的代码质量和测试结果是一个值得注意的问题。在网络安全、推荐系统等方面，充分利用基于LLM的智能体的优势并解决现有问题仍需要进一步研究。对于计算机操作和人机交互，基于LLM的智能体必须掌握更多的工具使用能力以实现更多功能。此外，通过构建自适应学习和长期发展的基于LLM的智能体系统，它们可以在面对不断变化的计算机科学问题时持续提高性能。

5.4.2 机器人系统

在机器人领域的先前研究中，Parker等人[289]介绍了对多移动机器人系统和多机器人之间的协作控制问题的调查。Busoniu等人[290]讨论了机器人学习和智能问题。

在当前关于机器人中基于LLM的智能体研究中，主要关注点在于机器人任务规划。Di Palo等人[55]提出了一个框架，利用语言作为核心推理工具，模拟机器人操作环境，并在探索效率和离线数据重用方面展示了显著的性能提升。ProgPrompt[291]提出了一个程序化的LLM提示结构，促进了各种环境和机器人功能任务中的任务规划。Huang等人[292]研究了LLM如何在不需要进一步训练的情况下通过自然语言反馈执行机器人控制情况下的推理。TaPA[146]提出了一种在物理场景约束下进行现实世界规划的方法，智能体通过将LLM和视觉感知模型与场景中的对象对齐来生成可执行计划。LLM-Planner[49]利用LLM的强大功能，为具身智能体进行样本高效的规划。Xiang等人[293]使用世界模型对LLM进行微调，以获得多样化的具身知识，利用这些经验进一步微调LLM，使其能够在各种物理环境中进行推理和行动。3D-LLM[294]接受3D点云及其特征作为输入，完成一系列与3D相关的任务。ProAgent[71]可以预测队友的即将到来的决策，并为自身制定增强计划，在协作推理方面表现出色。此外，它还可以动态调整自己的行为，以改善与队友的协作。

基于LLM的智能体在提高自动化水平、支持多场景应用和实现高效任务执行方面具有有希望的潜力。未来的研究可能会继续解决这些挑战或探索以下方面：

多机器人协作控制：基于LLM的智能体非常适合模拟多机器人系统中的协作控制和任务分配，帮助研究人员提高这些系统的协作性能和执行效率。例如，研究人员可以通过模拟各种类型机器人、任务和环境的行为和互动，分析多机器人任务分配、路径规划和协作策略。
无人机（UAV）群飞行和控制：基于LLM的智能体可以模拟UAV群飞行中的群控制、路径规划和障碍物避让，帮助研究人员分析UAV群的飞行稳定性、编队变化和安全飞行。

同时，基于LLM的智能体必须更全面地适应复杂环境和建模，因为机器人技术包括许多复杂环境和任务，需要准确处理复杂问题。此外，机器人必须处理实时多模态数据并做出决策，这意味着智能体也应该表现出快速响应和多模态处理能力。

5.4.3 电力系统

在电力和能源系统方面，已经存在许多基于智能体和多智能体系统的成熟应用。例如，Kilkki等人[295]全面回顾了智能体建模和仿真在智能电网中的应用。该论文介绍了智能电网的特点和挑战。它对智能电网中的智能体建模和仿真方法进行了分类和比较，并讨论了智能体模型在智能电网不同场景中的应用。Merabet等人[296]回顾了智能电网中的MAS，介绍了MAS的概念和特点，并讨论了MAS在智能电网中的应用场景、关键技术和挑战。Ghazzali等人[297]研究了使用滑动模式和多智能体共识设计方法在孤立微电网中固定时间分布式电压和无功功率补偿。Shinde和Amelin[298]回顾了智能体建模在各种电力市场中的应用文献。May和Huang[299]利用MARL在气候变化情景下为能源市场设计动态定价政策。

基于LLM的智能体在电力和能源领域的研究正在发展中，相关研究相对较少。未来的研究可能会探索以下方向：

智能电网管理和优化：通过模拟电厂、输电线路和耗电设备的行为和互动，基于LLM的智能体可以有效模拟智能电网中的挑战。这些挑战包括发电、输电、配电和电力消费管理。使用这些智能体还可以评估电网稳定性、能源效率和电力调度。
分布式能源资源调度：可以使用基于LLM的智能体来模拟和优化分布式能源资源的调度，如太阳能、风能和储能设备。这些智能体允许检查分布式能源资源的发电影响、市场竞争和能源互补性。
能源市场和交易机制：基于LLM的智能体适合模拟能源市场中的问题，如供需平衡、价格形成和交易机制。具体来说，它们可以模拟能源生产者、消费者和交易平台的行为和互动，分析能源市场的竞争力、价格波动和交易效率。

在可再生能源和分布式能源资源的大规模整合和协作优化方面存在重大挑战。为了实现电力系统的高效运行和可持续发展，基于LLM的智能体必须考虑各种能源类型、多层次电网结构和复杂的市场环境。此外，开发相关的技术标准和规范是必要的，以促进多智能体系统在智能电网中的广泛应用和推广。这将提高这些系统的互操作性和可扩展性，同时降低集成的难度和成本。通过广泛的研究和创新，预计基于LLM的智能体将在智能电网管理和优化、分布式能源资源调度以及能源市场和交易机制中发挥关键作用，最终促进电力系统的可持续发展。

5.4.4 交通系统

交通领域已经吸引了智能体系统的广泛关注。MARL可以用于协调多个交通信号灯，以优化交通流量，减少拥堵，提高道路交通效率。Zeng等人[300]介绍了一种使用深度Q学习控制交通信号灯的方法。Chu等人[301]应用分布式MARL技术协调大型城市道路网络中的交通信号灯，以最小化交通拥堵。

基于LLM的智能体在交通领域的研究目前处于起步阶段。Da等人[302]利用LLM通过基于上下文的提示进行推理，以理解和分析系统动态。通过利用LLM的推理能力，可以了解天气条件、交通条件和道路类型如何影响交通动态。随后，智能体根据现实世界的动态采取行动，并相应地学习更现实的策略。TrafficGPT[149]结合了LLM和交通领域专业知识，提高了交通管理的有效性。此外，它还为LLM配备了可视化、分析和处理交通数据的能力，为城市交通系统管理提供了宝贵的决策支持。DiLu[303]集成了推理和反思模块，使自动驾驶系统能够基于常识知识做出决策。

基于LLM的智能体可以在交通领域调查和贡献以下方面：基于LLM的智能体可以管理交通信号灯，根据实时交通流量和需求进行优化，以减少拥堵和等待时间。与传统方法相比，调度员可以通过自然语言调整信号周期。然而，由于涉及多目标优化和决策制定，LLM的推理和决策能力面临重大挑战。另一方面，基于LLM的智能体可以用于模拟交通流过程中的车辆行驶和道路条件变化，帮助研究人员了解影响交通流的特征和因素。例如，通过模拟车辆、道路和交通信号灯的行为和互动，基于LLM的智能体可以分析交通拥堵、事故和效率问题，提供比原始实现更高的模拟度，因为基于LLM的智能体模拟的车辆更接近人类的决策。

对于交通系统，通常需要有效地处理实时数据，并根据实时交通流量和需求优化决策。基于LLM的智能体需要表现出快速响应速度。此外，在面对多个优化目标和决策因素时，有效实施交通信号控制和调度策略仍然是一个挑战。

5.4.5 工业控制系统

在智能体和多智能体研究领域，Shen和Norrie[304]回顾了关于基于智能体的智能制造系统的当前研究状态，特别强调了生产调度和资源优化问题。Shen等人[305]全面检查了智能体系统在智能制造领域中的应用。

目前，基于LLM的智能体在工业控制和工程中的应用包括Xia等人[69]的研究，该研究引入了一个创新框架，将LLM、数字孪生和工业自动化系统集成，用于生产过程的智能规划和控制。作者建立了两类智能体：一个管理智能体位于自动化模块的顶端，负责协调各种模块技能以制定生产计划，以及一个操作智能体位于特定的自动化模块内，协调多个功能以执行提供的技能。在节能照明系统中，[306]利用传感器、执行器和神经网络，通过整合GPT-4而无需大量训练，实现了优越的决策制定和适应性。在芯片设计领域，Li等人[307]利用基于LLM的智能体协助开发有限差分时域（FDTD）仿真代码和深度强化学习代码，最终优化了用于先进硅光子学和光子集成电路应用的光子晶体表面发射激光器（PCSEL）结构。

基于LLM的智能体在工业过程控制和优化方面的潜力是有希望的，包括数据收集模拟、控制策略制定和设备修改等任务。基于LLM的智能体可以通过模拟传感器、控制器和执行器的行为和互动，评估工业过程的稳定性、生产效率和能耗。基于LLM的智能体面临的一个挑战是在现实世界任务规划和文本任务规划之间架起桥梁，从而提高其在工业过程控制和优化中的实用性。另一个挑战是解决工业过程控制和优化中固有的多个层次、角色和目标的复杂性和可扩展性问题。

5.4.6 医疗系统

智能体系统在医疗和制药研究中有许多应用，涵盖药物发现和优化、药物机制探索以及药代动力学模拟等领域。An[308]展示了基于智能体的计算机仿真在生物医学研究中的应用，包括药物发现和优化过程。Ekins等人[309]介绍了用于高通量数据分析的基于智能体的通路映射工具，涵盖药物机制调查和药物靶点鉴定等方面。Walker等人[310]提出了一种用于模拟个性化药物治疗和精准医疗的基于智能体的细胞社会行为模型。Singhal等人[311]讨论了在医疗和临床领域增强LLM的问题。Zhavoronkov等人[312]开发了一种名为Generative Tensorial Reinforcement Learning (GENTRL)的方法，用于设计新型小分子，优化合成化合物的可行性、新颖性和生物活性。

目前，关于医学科学中基于LLM的智能体的研究相对较少。Williams等人[64]介绍了一种新的个体模型范式，以解决将人类行为纳入流行病模型的挑战，智能体表现出在流行病期间和之后遵循多波流行病模式，反映了最近大流行中观察到的模式。Lobentanzer和Saez-Rodriguez[313]利用通用和生物医学特定的知识来解决LLM幻觉问题，并无缝集成了流行的生物信息学技术，提高了其实际应用性和可靠性。Mehandru等人[314]提出了一个名为"人工智能结构化临床检查"(“AI-SCI”)的新评估框架，用于评估LLM智能体在现实世界临床任务中的性能。

基于LLM的智能体在医疗和制药研究领域具有重要的潜力，包括：

疾病传播和流行病学建模：通过模拟疾病传播中各种智能体的行为和互动，包括感染者、易感者和康复者，以及个体流动性、社会行为和疾病状态变化等过程，研究人员可以更深入地了解疾病传播动态，并制定有效的控制策略。
药物发现和优化：基于LLM的智能体可以用于复制药物发现中的筛选、优化和评估程序，从而帮助研究人员识别具有特定效果和应用的新药。具体来说，通过模拟药物分子、靶标蛋白和生物过程的行为和互动，LLM智能体可以检查药物的结构-活性关系、药效学和药代动力学。

然而，这个领域涉及许多高度复杂的生物系统，解决这些复杂性问题的同时确保模型的准确性仍然是一个重大挑战。

5.4.7 军事系统

智能体和多智能体系统（MAS）在军事研究中具有巨大的潜力，特别是通过模拟和仿真帮助研究人员理解军事问题的复杂性和动态性。Ilachinski[315]、Cil和Mala[316]介绍了基于多智能体的战争模拟方法，包括战争模拟和战术分析、军事情报和决策支持。Sycara和Sukthankar[317]回顾了团队模型的进步，包括基于多智能体的军事通信和指挥控制系统。

目前，关于军事领域基于LLM的MAS的研究有限。未来的探索可以集中在战争模拟和战术分析上，其中基于LLM的MAS可以用于模拟战争期间的战斗行动和战术决策。这可能涉及模拟作战单位、指挥官和地形环境，以及多个合作或对抗的智能体。这些模拟帮助研究人员评估各种战术计划的优缺点，并分析作战效能、战场情况和战术优势。另一个感兴趣的领域是军事情报和决策支持：基于LLM的智能体可以用于实施军事情报和决策支持，从而提高指挥决策的准确性和效率。具体来说，智能体可以模拟情报收集、分析和决策，实现实时情报分析、预警和战略规划。基于LLM的智能体可以利用其在不同军事场景中的强大的泛化能力进行规划、分析和决策。

然而，军事研究通常需要考虑许多因素，例如确保高度现实的模拟环境，纳入更准确的战场地形、天气条件、作战单位性能和多层次（例如战略、作战、战术）和多领域（例如陆地、海洋、空中、太空、网络）因素的表示。与人类决策者的有效协作对于准确反映作战行动和战术决策的复杂性和动态性至关重要。同时，必须解决法律和伦理问题。随着人工智能技术在军事中的日益普及，法律和伦理问题的重视程度也在增加。

6 讨论

6.1 趋势

评估基于LLM的智能体在各种领域表现出显著的能力，包括特定问题的解决、合作和人际交互。然而，量化和客观地评估它们的表现仍然是一个挑战。

基础能力：随着基于LLM的智能体研究领域的不断发展，这些智能体的基础知识能力已经达到了相对稳定的阶段，强调了对这些基础能力进行标准化评估的迫切需求。值得注意的是，像Minecraft[50, 51, 134]和Tachikuma[286]这样的基准测试已经被引入来衡量基于LLM的智能体在理解复杂问题和进行逻辑推理方面的理解。此外，AgentSims[143]是一个多功能框架，用于评估智能体的规划和决策能力，包括其在各种情境中做出明智决策的能力。AgentBench[318]提供了一个全面评估智能体基础能力的平台。评估基于LLM的智能体的工具和资源利用已经获得了相当大的研究关注。随着这一领域更标准化和精细调整的评估指标和协议的发展，它有望发展。值得注意的是，ToolBench[196]和Gentopia[163]通过确定智能体如何有效地利用各种工具和资源来完成任务，为这一评估方面做出了贡献。目前，在像WebShop[194]和WebArena[139]这样的在线购物场景中评估检索能力。信息检索对于基于LLM的智能体获取更新的知识至关重要，应包括在工具利用的基准测试中。记忆存储、检索和记忆形式机制是LLM-based智能体保持长期上下文理解和有意义行为的关键设计。在[319]中讨论了记忆能力的量化指标和设计基准，应包括扩大的任务和指标，以促进基于LLM的智能体更具人性化的记忆行为。

基于领域的评估：评估基于LLM的智能体的表现需要对执行环境和特定任务进行基准测试。仅仅依赖MBPP[192]和HumanEval[193]基准测试是不够的，因为基于LLM的智能体可以观察到运行时的执行结果并执行代码重新生成，如MetaGPT[67]和ChatDev[66]。因此，设计任务级定义和评估协议是必要的，正如AgentBench所示。此外，开发和宣布不同领域如法律和医学的任务基准测试对于推动领域特定基于LLM的智能体的研究和应用至关重要。这些基准测试作为评估这些智能体在专业领域内的功效和能力的关键时刻点。同时，在心理学中，评估LLM-based智能体的情感评估和应用LLM-based智能体的治疗结果的评估指标依赖于人类反馈和比较，如Huang等人[320]所报告的，数据集和评估机制是必不可少的。

持续进化：当在复杂和动态的环境中运行时，基于LLM的智能体通常需要不断进化的能力，相应地调整它们的参数、记忆和目标。

持续学习和自我训练：基于LLM的智能体的一个关键方面是它们的持续学习和适应能力。随着任务和领域的演变，智能体必须获得新知识和技能，而不会丢失以前学到的信息。终身学习和元学习等技术可以增强智能体的推理能力，使其能够推广并应用知识到新情境中。此外，有效地利用智能体的记忆可以提高其固有的泛化能力。为基于LLM的智能体开发有效的持续学习和自我训练机制对于它们的长期成功和在各个领域中的应用至关重要。这方面的研究应该集中在设计强大的算法和模型上，允许智能体从多种信息来源学习，包括文本数据、用户交互和现实世界的经验。

自我评估和动态目标：基于LLM的智能体应该具备自我评估和目标设定能力，以提高性能并适应不断变化的环境。智能体评估来自其环境的反馈并理解对其行为的任何批评至关重要。基于LLM的智能体可以有效从反馈中学习，并使用更有效的编程机制提取和保留关键经验。基于LLM的智能体可以评估信号或量化指标和定性反馈，增强其处理评估的能力。这包括评估它们的优势和劣势，确定改进的领域，并设定现实的自我改进目标。智能体还应该监控它们朝着这些目标的进展，并进行必要的调整以保持正确的轨迹。开发自我评估和动态目标设定机制将使基于LLM的智能体变得更加自主和适应性，从而提高性能和更有效的人际协作。

适应性：基于LLM的智能体的成功在很大程度上取决于它们适应新环境、任务和用户偏好的能力。这种适应性包括理解并调整到用户需求、适应不同的沟通风格，并快速学习新任务和领域。这方面的研究应该集中在创建模型和算法上，使智能体能够从它们的经验中学习并与用户交互，从而相应地调整它们的行为和策略。开发强大的LLM和Rethink技术也将使基于LLM的智能体能够将它们的知识和技能应用到新情境中，最终导致更加多样化和有效的智能体。

增强多模态能力：智能体必须在现实世界情境中管理多模态信息，包括图像、视频和语音。整合额外的多模态模型可以使基于LLM的智能体具备多模态能力。这个过程通常涉及将多模态输入转换为文本数据，使用LLM进行推理和规划，并使用多模态模型进行输出生成。例如，MMReact[321]将ChatGPT与视觉专家库整合，以完成多模态推理和行动。IdealGPT[322]是一个迭代分解视觉推理的框架，利用LLM生成子问题，多模态模型提供相应的子答案，然后LLM推断最终响应。Di Palo等人[55]提出了一个框架，将从头开始训练的基于RL的智能体与LLM和多模态模型的高级能力结合起来。智能体可以通过语言解释其多模态环境、任务和行动。TaPA[146]通过将LLM和视觉感知模型对齐，为具有物理场景约束的现实世界场景生成可执行计划。ViperGPT[323]结合了视觉和语言模型，使用代码生成模型为任何查询生成结果。

相反，最近的一些大型多模态模型（LMMs），如GPT4-V[324]、miniGPT-v2[325]、LLaVA[326]和PALM-E[327]，已经展示了强大的图像内容理解能力。在未来，当使用LMMs构建智能体时，将不再需要将图像转换为文本后再输入到LLMs中。相反，LMMs可以直接执行基于当前图像输入的多模态任务规划和反思，提高信息利用效率和多模态任务处理性能。

6.2 挑战

6.2.1 LLM的内在限制

LLM为基于LLM的智能体提供基础，促进规划和反思能力、自然语言表达和在多样化任务中的泛化。然而，LLM经常面临上下文长度[14]的限制，这可能导致在处理长篇文章或复杂对话时丢失关键信息[328]。另一个问题是LLM生成的无效数据和幻觉[329]。尽管LLM能够产生流畅且看似合理的文本，但它们可能会生成不相关、无效甚至错误的信息。这种现象源于LLM在训练过程中获取的多余数据或错误模式。这些问题显著影响了LLM的有效性，进而影响基于LLM的智能体和基于LLM的MAS的整体性能。

6.2.2 动态扩展

随着基于LLM的MAS部署变得更加广泛，系统必须能够在各种硬件和软件环境中动态扩展，根据需求调整其规模和性能。然而，动态扩展的实施存在几个挑战，包括：

适应性：系统必须能够调整其规模和性能，以满足不同的任务需求和计算环境。这需要强大的适应能力，包括自动调整智能体的数量、各种记忆空间的大小和转换策略。研究人员可以采用自适应算法，如强化学习和遗传算法，进行自动优化和调整，以实现这种适应性。

资源分配和管理：动态扩展需要为MAS适应性地扩展计算和存储资源。在CPDE MAS（第3.2.2节）的情况下，单个LLM负责角色分配和行动计划，动态扩展必须考虑LLM相对于不同数量的智能体和LLM推理的资源消耗的分配和计划。例如，Yue等人[330]探索了构建LLM级联以降低使用LLM的成本，特别是在执行推理任务时。

6.2.3 安全和信任

为基于LLM的智能体分配适当的权限并确保系统安全至关重要[331]。鉴于这些智能体可以交换信息和资源，过多的权限可能导致错误的决策和行动，影响整体系统性能并引发安全问题。我们如何防止有害的错误，从而保持人类和企业来之不易的信任？为解决这个问题，开发一个有效的权限分配机制，促进不同智能体之间的高效协作，同时不超过其指定的权限，是至关重要的。此外，进行可靠性测试的重要性不容忽视。例如，ToolEmu[332]利用LLM模拟工具执行，展示了其在各种工具和场景中评估基于LLM的智能体的能力。这种方法可以检测智能体故障并量化相关风险。

7 结论

本文全面回顾了基于LLM的智能体的当前研究状态、应用和前景。它首先从智能体到基于RL的智能体，然后到基于LLM的智能体的发展历程，接着介绍了基于LLM的智能体的基本概念，包括它们的定义、规划能力、记忆、反思能力、行动和外部环境。随后，本文详细阐述了基于LLM的MAS的多角色关系、规划类型和增强通信方法。此外，它还讨论了基于LLM的智能体在各个领域潜在的发展前景和挑战，并提出了可能的解决方案。最后，本文深入探讨了基于LLM的智能体面临的发展趋势和挑战，例如LLM的固有限制、MAS的动态扩展以及安全和信任问题。尽管当前研究仍远未实现AGI，但我们相信基于LLM的智能体可以代表向前迈出的重要一步。

参考资料

标题：探索基于大型语言模型的智能体：定义、方法和前景作者：Yuheng Cheng, Ceyao Zhang, Zhengwen Zhang, Xiangru Meng, Sirui Hong, Wenhao Li, Zihao Wang, Zekai Wang, Feng Yin, Junhua Zhao, Xiuqiang He 单位：香港中文大学（深圳）、DeepWisdom、北京大学、Yantu.ai、腾讯FiT 标签：人工智能、大型语言模型、智能体、多智能体系统、自然语言处理链接：https://arxiv.org/pdf/2401.03428 摘要：本文综述了基于大型语言模型（LLM）的智能体在单智能体和多智能体系统中的研究现状、应用框架及未来发展前景。