基于大型语言模型的智能体的崛起与潜力：综述 ——《The Rise and Potential of Large Language Model Based Agents: A Survey》

最新推荐文章于 2025-06-05 22:56:29 发布

进一步有进一步的欢喜

最新推荐文章于 2025-06-05 22:56:29 发布

阅读量1.3k

点赞数 42

分类专栏： LLM 文章标签： Agent 智能体 LLM 人工智能

本文链接：https://blog.csdn.net/qq_22866291/article/details/145432291

版权

LLM 专栏收录该内容

22 篇文章

订阅专栏

在这里插入图片描述

论文地址：https://arxiv.org/abs/2309.07864

摘要：长期以来，人类一直追求相当于或超越人类水平的人工智能（AI），而AI智能体被认为是实现这一追求的有前途的载体。AI智能体是能够感知环境、做出决策并采取行动的人工实体。人们在开发智能体方面付出了许多努力，但这些努力主要集中在算法或训练策略的进步上，以提高在特定任务上的特定能力或性能。实际上，该领域缺乏的是一个通用且强大的模型，作为设计能够适应不同场景的AI智能体的起点。由于大型语言模型（LLM）展现出的多功能能力，它们被视为通用人工智能（AGI）的潜在火花，为构建通用AI智能体带来了希望。许多研究人员以LLM为基础构建AI智能体，并取得了显著进展。在本文中，我们对基于LLM的智能体进行了全面综述。我们首先追溯智能体概念从哲学起源到在AI中的发展，并解释为什么LLM适合作为智能体的基础。在此基础上，我们提出了基于LLM的智能体的通用框架，包括三个主要组件：大脑、感知和行动，并且该框架可以针对不同应用进行定制。随后，我们从单智能体场景、多智能体场景和人机协作三个方面探讨了基于LLM的智能体的广泛应用。接着，我们深入研究智能体社会，探索基于LLM的智能体的行为和个性、智能体社会中出现的社会现象以及它们对人类社会的启示。最后，我们讨论了该领域内的几个关键主题和开放问题。相关论文的存储库位于https://github.com/WooooDyy/LLM-Agent-Paper-List。

关键词：人工智能；智能体；大型语言模型；综述

1. 引言

“如果他们找到一只能回答所有问题的鹦鹉，我会毫不犹豫地称它为智能生物。”
——德尼·狄德罗，1875年

人工智能（AI）是一个致力于设计和开发能够复制人类智能和能力的系统的领域[1]。早在18世纪，哲学家德尼·狄德罗就提出，如果一只鹦鹉能回答每一个问题，它就可以被认为是智能的[2]。虽然狄德罗指的是像鹦鹉这样的生物，但他的观点突出了一个深刻的概念，即高度智能的有机体可以类似于人类智能。在20世纪50年代，艾伦·图灵将这一概念扩展到人工实体，并提出了著名的图灵测试[3]。这个测试是AI的基石，旨在探索机器是否能够展示出与人类相当的智能行为。这些AI实体通常被称为“智能体”，构成了AI系统的基本构建块。在AI中，智能体通常是指能够使用传感器感知周围环境、做出决策，并使用执行器采取行动的人工实体[1,4]。

智能体的概念起源于哲学，其根源可以追溯到亚里士多德和休谟等思想家[5]。它描述了具有欲望、信念、意图和行动能力的实体[5]。这个想法后来进入计算机科学领域，旨在使计算机能够理解用户的兴趣并代表用户自主执行行动[6,7,8]。随着AI的发展，“智能体”一词在AI研究中用于描述展示智能行为并具有自主性、反应性、主动性和社交能力等品质的实体[4,9]。从那时起，智能体的探索和技术进步成为了AI领域的焦点[1,10]。现在，AI智能体被认为是实现通用人工智能（AGI）的关键一步，因为它们涵盖了广泛的智能活动的潜力[4,11,12]。

从20世纪中叶开始，随着对智能AI智能体设计和发展的深入研究，取得了重大进展[13,14,15,16,17,18]。然而，这些努力主要集中在增强特定能力上，如符号推理，或掌握特定任务，如围棋或国际象棋[19,20,21]。在不同场景下实现广泛的适应性仍然难以捉摸。此外，以前的研究更多地强调算法和训练策略的设计，而忽视了模型内在的通用能力的发展，如知识记忆、长期规划、有效泛化和高效交互[22,23]。实际上，增强模型的内在能力是进一步推进智能体发展的关键因素，该领域需要一个强大的基础模型，具备上述各种关键属性，作为智能体系统的起点。

大型语言模型（LLM）的发展为智能体的进一步发展带来了一线希望[24,25,26]，并且该领域已经取得了显著进展[22,27,28,29]。根据世界范围（WS）的概念[30]，它涵盖了从自然语言处理到通用人工智能的五个研究进展层次（即语料库、互联网、感知、具身和社会），纯粹的LLM建立在第二层，具有互联网规模的文本输入和输出。尽管如此，LLM在知识获取、指令理解、泛化、规划和推理方面表现出强大的能力，同时展示了与人类有效的自然语言交互。这些优势使LLM成为AGI的火花，使其非常适合构建智能体，以促进人类和智能体和谐共处的世界[22]。从这个角度出发，如果我们将LLM提升到智能体的地位，并为其配备扩展的感知空间和行动空间，它们有可能达到WS的第三和第四层。此外，这些基于LLM的智能体可以通过合作或竞争解决更复杂的任务，并且当它们放在一起时可以观察到涌现的社会现象，有可能实现WS的第五层。如图1所示，我们设想了一个由AI智能体组成的和谐社会，人类也可以参与其中。
在这里插入图片描述

在本文中，我们呈现了一篇专注于基于LLM的智能体的全面而系统的综述，试图研究这个新兴领域的现有研究和未来发展方向。为此，我们首先深入研究关键的背景信息（§2）。特别是，我们首先追溯AI智能体从哲学到AI领域的起源，并简要概述关于人工智能体存在的争论（§2.1）。接下来，我们从技术趋势的角度对AI智能体的发展进行简要回顾（§2.2）。最后，我们深入介绍智能体的基本特征，并阐明为什么大型语言模型适合作为AI智能体大脑或控制器的主要组成部分（§2.3）。

受智能体定义的启发，我们提出了基于LLM的智能体的通用概念框架，包括三个关键部分：大脑、感知和行动（§3），并且该框架可以根据不同应用进行定制。我们首先介绍大脑，它主要由大型语言模型组成（§3.1）。与人类类似，大脑是AI智能体的核心，因为它不仅存储关键的记忆、信息和知识，还承担着信息处理、决策、推理和规划等重要任务。它是智能体能否表现出智能行为的关键决定因素。接下来，我们介绍感知模块（§3.2）。对于智能体来说，这个模块的作用类似于人类的感觉器官。其主要功能是将智能体的感知空间从仅文本扩展到包括文本、声音、视觉、触觉、嗅觉等多种感官模式的多模态空间。这种扩展使智能体能够更好地感知来自外部环境的信息。最后，我们介绍用于扩展智能体行动空间的行动模块（§3.3）。具体来说，我们期望智能体能够具有文本输出、采取具身行动和使用工具的能力，以便更好地响应环境变化并提供反馈，甚至改变和塑造环境。

之后，我们详细而全面地介绍了基于LLM的智能体的实际应用，并阐明了基本设计追求——“利用AI造福人类”（§4）。首先，我们深入研究单智能体的当前应用，并讨论它们在基于文本的任务和模拟探索环境中的性能，重点关注它们在处理特定任务、推动创新以及展示类人生存技能和适应性方面的能力（§4.1）。接着，我们回顾多智能体的发展历史。我们介绍了基于LLM的多智能体系统应用中智能体之间的相互作用，它们在其中进行合作、协商或竞争。无论相互作用的模式如何，智能体共同朝着一个共同的目标努力（§4.2）。最后，考虑到基于LLM的智能体在隐私安全、伦理约束和数据不足等方面的潜在限制，我们讨论了人机协作。我们总结了智能体和人类之间的协作模式：指令 - 执行器模式和平等伙伴关系模式，以及在实践中的具体应用（§4.3）。

在探索基于LLM的智能体的实际应用的基础上，我们现在将重点转移到“智能体社会”的概念上，研究智能体与其周围环境之间的复杂相互作用（§5）。本节首先研究这些智能体是否表现出类人行为并具有相应的个性（§5.1）。此外，我们介绍了智能体运行的社会环境，包括基于文本的环境、虚拟沙盒和物理世界（§5.2）。与前面的部分（§3.2）不同，这里我们将重点关注不同类型的环境，而不是智能体如何感知它。在建立了智能体及其环境的基础之后，我们继续揭示它们形成的模拟社会（§5.3）。我们将讨论模拟社会的构建，并继续研究从中出现的社会现象。具体来说，我们将强调模拟社会中固有的教训和潜在风险。

最后，我们讨论了基于LLM的智能体领域内的一系列关键主题（§6）和开放问题：（1）LLM研究和智能体研究之间的相互益处和启发，我们展示了基于LLM的智能体的发展为智能体和LLM社区都提供了许多机会（§6.1）；（2）从效用、社交性、价值观和持续进化能力四个维度对基于LLM的智能体的现有评估工作和一些前景（§6.2）；（3）基于LLM的智能体的潜在风险，我们讨论了基于LLM的智能体的对抗鲁棒性和可信度。我们还包括对其他一些风险的讨论，如滥用、失业和对人类福祉的威胁（§6.3）；（4）增加智能体的数量，我们讨论了增加智能体数量的潜在优势和挑战，以及预定和动态缩放的方法（§6.4）；（5）几个开放问题，如基于LLM的智能体是否代表了通往AGI的潜在途径、从虚拟模拟环境到物理环境的挑战、AI智能体中的集体智能以及智能体即服务（§6.5）。毕竟，我们希望本文能够为相关领域的研究人员和从业者提供启发。

2. 背景

在本节中，我们提供关键的背景信息，为后续内容奠定基础（§2.1）。我们首先讨论AI智能体的起源，从哲学到AI领域，并讨论关于人工智能体存在的论述（§2.2）。随后，我们从技术趋势的角度总结AI智能体的发展。最后，我们介绍智能体的关键特征，并展示为什么LLM适合作为AI智能体大脑的主要部分（§2.3）。

2.1. AI智能体的起源

“智能体”是一个历史悠久的概念，在许多领域都得到了探索和解释。在这里，我们首先探讨它在哲学中的起源，讨论人工产品在哲学意义上是否能够具有能动性，并研究相关概念是如何引入AI领域的。

哲学中的智能体。智能体的核心思想在哲学讨论中有其历史背景，其根源可追溯到亚里士多德和休谟等有影响力的思想家[5]。一般来说，“智能体”是一个有行动能力的实体，而“能动性”一词表示这种能力的行使或表现[5]。狭义上，“能动性”通常用于指有意行动的执行；相应地，“智能体”一词表示具有欲望、信念、意图和行动能力的实体[32,33,34,35]。需要注意的是，智能体不仅可以包括个体人类，还可以包括物理和虚拟世界中的其他实体。重要的是，智能体的概念涉及个体自主性，赋予它们行使意志、做出选择和采取行动的能力，而不是被动地对外部刺激做出反应。

从哲学的角度来看，人工实体能够具有能动性吗？一般来说，如果我们将智能体定义为有行动能力的实体，AI系统确实表现出一种能动性[5]。然而，“智能体”一词更通常用于指具有意识、意向性和行动能力的实体或主体[32,33,34]。在这个框架内，目前尚不清楚人工系统是否能够具有能动性，因为尚不确定它们是否具有构成归因于欲望、信念和意图的基础的内部状态。一些人认为，将意图等心理状态归因于人工智能体是一种拟人化，缺乏科学严谨性[5,36]。正如巴拉迪亚兰等人[36]所说：“明确能动性的要求让我们清楚地认识到，人工形式的能动性的发展还需要很多努力。”相比之下，也有研究人员认为，在某些情况下，采用意向立场（即根据意图解释智能体行为）可以更好地描述、解释和抽象人工智能体的行为，就像对人类所做的那样[11,37,38]。

随着语言模型的发展，人工有意智能体的潜在出现似乎更有希望[24,25,39,40,41]。严格来说，语言模型仅仅作为条件概率模型起作用，使用输入来预测下一个标记[42]。与此不同，人类会结合社会和感知背景，并根据心理状态说话[43,44]。因此，一些研究人员认为，当前的语言建模范式与智能体的有意行动不兼容[30,45]。然而，也有研究人员提出，语言模型在狭义上可以作为智能体的模型[46,47]。他们认为，在基于上下文的下一个单词预测过程中，当前的语言模型有时可以推断出生成上下文的智能体所具有的信念、欲望和意图的近似、部分表示。有了这些表示，语言模型就可以像人类一样生成话语。为了支持他们的观点，他们进行了实验并提供了一些实证证据[46,48,49]。

智能体引入AI。令人惊讶的是，直到20世纪80年代中后期，主流AI社区的研究人员对与智能体相关的概念关注相对较少。然而，从那时起，在计算机科学和人工智能社区中，对这个话题的兴趣大幅增加[50,51,52,53]。正如伍德里奇等人[4]所说，我们可以将AI定义为计算机科学的一个子领域，其目标是设计和构建表现出智能行为方面的基于计算机的智能体。因此，我们可以将“智能体”视为AI的核心概念。当智能体的概念引入AI领域时，其含义发生了一些变化。在哲学领域，智能体可以是人类、动物，甚至是具有自主性的概念或实体[5]。然而，在人工智能领域，智能体是一个计算实体[4,7]。由于计算实体的意识和欲望等概念似乎具有形而上学的性质[11]，并且鉴于我们只能观察机器的行为，许多AI研究人员，包括艾伦·图灵，建议暂时搁置智能体是否“实际上”在思考或真正拥有“心智”的问题[3]。相反，研究人员采用其他属性来帮助描述智能体，如自主性、反应性、主动性和社交能力[4,9]。也有研究人员认为，智能是“旁观者眼中的”；它不是一种与生俱来的、孤立的属性[15,16,54,55]。本质上，AI智能体不等同于哲学智能体；它是哲学智能体概念在AI背景下的具体化。在本文中，我们将AI智能体视为能够使用传感器感知周围环境、做出决策，并使用执行器采取行动的人工实体[1,4]。

2.2. 智能体研究的技术趋势

AI智能体的发展经历了几个阶段，在这里我们从技术趋势的角度简要回顾其发展。

符号智能体。在人工智能研究的早期阶段，主要的方法是符号AI，其特点是依赖符号逻辑[56,57]。这种方法采用逻辑规则和符号表示来封装知识并促进推理过程。早期的AI智能体是基于这种方法构建的[58]，它们主要关注两个问题：转换问题和表示/推理问题[59]。这些智能体旨在模拟人类思维模式。它们具有明确且可解释的推理框架，并且由于其符号性质，它们表现出高度的表达能力[13,14,60]。这种方法的一个经典例子是基于知识的专家系统。然而，符号智能体在处理不确定性和大规模现实世界问题方面面临局限性[19,20]。此外，由于符号推理算法的复杂性，很难找到一种能够在有限时间内产生有意义结果的高效算法[20,61]。

反应式智能体。与符号智能体不同，反应式智能体不使用复杂的符号推理。相反，它们主要关注智能体与环境之间的相互作用，强调快速和实时响应[15,16,20,62,63]。这些智能体主要基于感知 - 行动循环，有效地感知环境并做出反应。这种智能体的设计优先考虑直接的输入 - 输出映射，而不是复杂的推理和符号操作[52]。然而，反应式智能体也有局限性。它们通常需要较少的计算资源，能够更快地响应，但可能缺乏复杂的高级决策和规划能力。

基于强化学习的智能体。随着计算能力的提高和数据可用性的增加，以及对模拟智能体与环境之间相互作用的兴趣日益增长，研究人员开始利用强化学习方法训练智能体来处理更具挑战性和复杂的任务[17,18,64,65]。该领域主要关注的是如何使智能体通过与环境的交互学习，从而在特定任务中实现最大累积奖励[21]。最初，强化学习（RL）智能体主要基于基本技术，如策略搜索和价值函数优化，例如Q - learning[66]和SARSA[67]。随着深度学习的兴起，深度神经网络与强化学习的融合，即深度强化学习（DRL）出现了[68,69]。这使得智能体能够从高维输入中学习复杂的策略，从而取得了许多重大成就，如AlphaGo[70]和DQN[71]。这种方法的优势在于它能够使智能体在未知环境中自主学习，无需明确的人类干预。这使得它在从游戏到机器人控制等众多领域得到广泛应用。尽管如此，强化学习面临着挑战，包括训练时间长、样本效率低和稳定性问题，特别是在复杂的现实世界环境中应用时[21]。

具有迁移学习和元学习的智能体。传统上，训练一个强化学习智能体需要大量的样本和长时间的训练，并且缺乏泛化能力[72,73,74,75,76]。因此，研究人员引入了迁移学习来加速智能体在新任务上的学习[77,78,79]。迁移学习减轻了在新任务上的训练负担，并促进了不同任务之间的知识共享和迁移，从而提高了学习效率、性能和泛化能力。此外，元学习也被引入到AI智能体中[80,81,82,83,84]。元学习专注于学习如何学习，使智能体能够从少量样本中快速推断出新任务的最优策略[85]。这样的智能体在面对新任务时，能够通过利用获得的通用知识和策略快速调整其学习方法，从而减少对大量样本的依赖。然而，当源任务和目标任务之间存在显著差异时，迁移学习的效果可能不尽如人意，甚至可能出现负迁移[86,87]。此外，元学习所需的大量预训练和大样本量使得难以建立通用的学习策略[81,88]。

基于大型语言模型的智能体。由于大型语言模型展示出了令人印象深刻的涌现能力并广受欢迎[24,25,26,41]，研究人员已经开始利用这些模型构建AI智能体[22,27,28,89]。具体来说，他们将LLM作为这些智能体的大脑或控制器的主要组件，并通过多模态感知和工具利用等策略扩展其感知和行动空间[90,91,92,93,94]。这些基于LLM的智能体可以通过思维链（CoT）和问题分解等技术展示出与符号智能体相当的推理和规划能力[95,96,97,98,99,100,101]。它们也可以通过从反馈中学习和执行新动作来获得与环境的交互能力，类似于反应式智能体[102,103,104]。同样，大型语言模型在大规模语料库上进行预训练，并展示出少样本和零样本泛化能力，允许在任务之间无缝转移而无需更新参数[41,105,106,107]。基于LLM的智能体已经应用于各种现实世界场景，如软件开发[108,109]和科学研究[110]。由于它们的自然语言理解和生成能力，它们可以无缝地相互交互，从而在多个智能体之间产生合作和竞争[108,109,111,112]。此外，研究表明，允许多个智能体共存可以导致社会现象的涌现[22]。

2.3. 为什么LLM适合作为智能体大脑的主要组件？

如前所述，研究人员引入了几个属性来帮助描述和定义AI领域中的智能体。在这里，我们将深入探讨一些关键属性，阐明它们与LLM的相关性，从而解释为什么LLM非常适合作为AI智能体大脑的主要部分。

自主性。自主性意味着智能体在没有人类或其他直接干预的情况下运行，并对其行动和内部状态有一定程度的控制[4,113]。这意味着智能体不仅应该具备按照明确的人类指令完成任务的能力，还应该表现出独立发起和执行行动的能力。LLM可以通过生成类似人类的文本、进行对话和执行各种任务而无需详细的逐步指令来展示一种自主性[114,115]。此外，它们可以根据环境输入动态调整输出，反映出一定程度的自适应自主性[23,27,104]。此外，它们可以通过展示创造力，如提出新颖的想法、故事或解决方案，来体现自主性，这些想法、故事或解决方案并未被明确编程到它们中[116,117]。这意味着一定程度的自我导向的探索和决策。像Auto - GPT[114]这样的应用程序体现了LLM在构建自主智能体方面的巨大潜力。只需为它们提供一个任务和一组可用工具，它们就可以自主制定计划并执行计划以实现最终目标。

反应性。智能体的反应性是指其对环境中的即时变化和刺激迅速做出反应的能力[9]。这意味着智能体能够感知周围环境的变化并及时采取适当的行动。传统上，语言模型的感知空间仅限于文本输入，而行动空间仅限于文本输出。然而，研究人员已经展示了使用多模态融合技术扩展LLM感知空间的潜力，使它们能够快速处理来自环境的视觉和听觉信息[25,118,119]。同样，通过具身技术[120,121]和工具使用[92,94]扩展LLM的行动空间也是可行的。这些进步使LLM能够有效地与现实世界的物理环境交互并在其中执行任务。一个主要的挑战是，基于LLM的智能体在执行非文本行动时，需要一个中间步骤，即在最终将其转化为具体行动之前，以文本形式生成想法或制定工具使用计划。这个中间过程耗时并降低了响应速度。然而，这与人类的行为模式非常相似，人类遵循“三思而后行”的原则[122,123]。

主动性。主动性表示智能体不仅仅对环境做出反应；它们具有通过主动采取行动来展示目标导向行为的能力[9]。这个属性强调智能体可以在其行动中进行推理、制定计划并采取主动措施以实现特定目标或适应环境变化。虽然直观上LLM的下一个标记预测范式可能不具备意图或欲望，但研究表明它们可以隐式地生成这些状态的表示并指导模型的推理过程[46,48,49]。LLM已经展示出强大的广义推理和规划能力。通过向大型语言模型提供诸如“让我们逐步思考”的指令，我们可以激发它们的推理能力，如逻辑和数学推理[95,96,97]。同样，大型语言模型已经展示出以目标重新制定[99,124]、任务分解[98,125]和根据环境变化调整计划[100,126]等形式的规划涌现能力。

社交能力。社交能力是指智能体通过某种智能体通信语言与其他智能体（包括人类）进行交互的能力[8]。大型语言模型展示出强大的自然语言交互能力，如理解和生成[23,127,128]。与结构化语言或其他通信协议相比，这种能力使它们能够以可解释的方式与其他模型或人类进行交互。这构成了基于LLM的智能体社交能力的基石[22,108]。许多研究人员已经证明，基于LLM的智能体可以通过合作和竞争等社会行为提高任务性能[108,111,129,130]。通过输入特定的提示，LLM也可以扮演不同的角色，从而模拟现实世界中的社会分工[109]。此外，当我们将具有不同身份的多个智能体放入一个社会中时，可以观察到涌现的社会现象[22]。

图2展示了基于LLM的智能体的概念框架，包括大脑、感知和行动三个组件。作为控制器，大脑模块承担基本任务，如记忆、思考和决策。感知模块感知和处理来自外部环境的多模态信息，行动模块使用工具执行并影响周围环境。这里我们给出一个示例来说明工作流程：当一个人询问是否会下雨时，感知模块将指令转换为LLM可理解的表示。然后大脑模块根据当前天气和互联网上的天气报告开始推理。最后，行动模块做出响应并将伞交给人类。通过重复上述过程，智能体可以不断获得反馈并与环境交互。在这里插入图片描述

3. 智能体的诞生：基于LLM的智能体的构建

“适者生存”[131]表明，如果一个个体想要在外部环境中生存，他必须有效地适应周围环境。这要求他具有认知能力，能够感知和应对外部世界的变化，这与§2.1中提到的“智能体”的定义是一致的。受此启发，我们提出了一个基于LLM的智能体的通用概念框架，由三个关键部分组成：大脑、感知和行动（见图2）。我们首先描述大脑的结构和工作机制，它主要由一个大型语言模型组成（§3.1）。大脑是AI智能体的核心，因为它不仅存储知识和记忆，还承担着不可或缺的功能，如信息处理和决策制定。它可以展示推理和规划过程，并很好地应对未见过的任务，展示智能体的智能。接下来，我们介绍感知模块（§3.2）。其核心目的是将智能体的感知空间从仅文本领域扩展到包括文本、听觉和视觉模式的多模态领域。这种扩展使智能体能够更有效地掌握和利用来自周围环境的信息。最后，我们介绍旨在扩展智能体行动空间的行动模块（§3.3）。具体来说，我们赋予智能体具身行动能力和工具处理技能，使其能够熟练地适应环境变化、提供反馈，甚至影响和塑造环境。

该框架可以根据不同的应用场景进行定制，即并非每个特定组件都会在所有研究中使用。一般来说，智能体的工作流程如下：首先，感知模块，对应于人类的感官系统，如眼睛和耳朵，感知外部环境的变化，然后将多模态信息转换为智能体可理解的表示。随后，大脑模块，作为控制中心，进行信息处理活动，如思考、决策和与存储（包括记忆和知识）的操作。最后，行动模块，对应于人类的四肢，在工具的帮助下执行并对周围环境产生影响。通过重复上述过程，智能体可以不断获得反馈并与环境交互。

3.1. 大脑（Brain）

人类大脑是一个由大量相互连接的神经元组成的复杂结构，能够处理各种信息，产生各种思想，控制不同的行为，甚至创造艺术和文化[199]。与人类类似，大脑是AI智能体的核心，主要由一个大型语言模型组成。

操作机制。为了确保有效通信，具备自然语言交互能力（§3.1.1）至关重要。在接收到感知模块处理后的信息后，大脑模块首先转向存储，检索知识（§3.1.2）并从记忆中回忆（§3.1.3）。这些结果有助于智能体制定计划、推理和做出明智的决策（§3.1.4）。此外，大脑模块可以以总结、向量或其他数据结构的形式记住智能体过去的观察、想法和行动。同时，它还可以更新常识和领域知识等信息以供未来使用。基于LLM的智能体也可以凭借其固有的泛化和迁移能力适应不熟悉的场景（§3.1.5）。在接下来的部分中，我们将详细探讨大脑模块的这些非凡方面，如图3所示。在这里插入图片描述

3.1.1自然语言交互（Natural Language Interaction）

作为一种交流媒介，语言包含丰富的信息。除了直观表达的内容外，背后可能还隐藏着说话者的信念、欲望和意图[200]。由于LLM强大的自然语言理解和生成能力[25,201,202,203]，智能体不仅能够熟练地进行多种语言的基本交互式对话[204,205,206]（如GPT系列[40,41,201]、LLaMA系列[201,209]和T5系列[107,210]），还能展现出深入的理解能力，使人类能够轻松地与智能体进行理解和交互[207,208]。此外，以自然语言进行交流的基于LLM的智能体能够赢得更多信任，并与人类更有效地合作[130]。

多轮交互式对话。多轮对话能力是有效和一致交流的基础。作为大脑模块的核心，LLM能够理解自然语言并生成连贯且与上下文相关的响应，这有助于智能体更好地理解和处理各种问题[211]。然而，即使是人类在一次交流中也很难毫无混淆地进行沟通，因此多轮对话是必要的。与传统的仅文本阅读理解任务（如SQuAD[212]）相比，多轮对话（1）是交互式的，涉及多个说话者，且缺乏连续性；（2）可能涉及多个主题，对话信息也可能冗余，使文本结构更加复杂[147]。一般来说，多轮对话主要分为三个步骤：（1）理解自然语言对话的历史；（2）决定采取什么行动；（3）生成自然语言响应。基于LLM的智能体能够利用现有信息不断完善输出，进行多轮对话并有效实现最终目标[132,147]。

高质量自然语言生成。最近的LLM展示出了卓越的自然语言生成能力，能够持续生成多种语言的高质量文本[132,213]。LLM生成内容的连贯性[214]和语法准确性[133]不断提高，从GPT - 3[41]到InstructGPT[24]逐步演进，并在GPT - 4[25]中达到顶峰。See等人[214]实证证明这些语言模型能够“适应条件文本的风格和内容”[215]。Fang等人[133]的结果表明ChatGPT在语法错误检测方面表现出色，凸显了其强大的语言能力。在对话环境中，LLM在对话质量的关键指标（包括内容、相关性和适当性）上也表现良好[127]。重要的是，它们不仅仅复制训练数据，还表现出一定程度的创造力，生成与人类制定的基准相比同样新颖甚至更新颖的多样化文本[216]。同时，通过使用可控提示，人类的监督仍然有效，确保能够精确控制这些语言模型生成的内容[134]。

意图和隐含意义理解。尽管在大规模语料库上训练的模型已经足够智能来理解指令，但大多数模型仍然无法模拟人类对话或充分利用语言传达的信息[217]。理解隐含意义对于与其他智能体进行有效沟通和合作至关重要[135]，并且能够使智能体解释他人的反馈。LLM的出现凸显了基础模型理解人类意图的潜力，但对于模糊指令或其他隐含意义，这对智能体来说是一个重大挑战[94,136]。对于人类来说，从对话中自然地把握隐含意义，而对于智能体来说，它们应该将隐含意义形式化为奖励函数，以便在未见过的上下文中选择符合说话者偏好的选项[128]。奖励建模的主要方法之一是根据反馈推断奖励，主要以比较的形式呈现（可能辅以原因[219]）和无约束的自然语言[220]。另一种方法是从描述中恢复奖励，以行动空间为桥梁[128]。Jeon等人[221]认为人类行为可以映射到从一组隐含选项中进行的选择，这有助于以统一的形式解释所有信息。通过利用对上下文的理解，智能体能够采取高度个性化和准确的行动，以满足特定要求。

3.1.2知识（Knowledge）

由于现实世界的多样性，许多自然语言处理研究人员试图利用规模更大的数据。这种数据通常是非结构化和无标签的[137,138]，但它包含了语言模型可以学习的大量知识。理论上，语言模型可以随着参数的增加学习更多知识[139]，并且有可能学习和理解自然语言中的所有内容。研究[140]表明，在大规模数据集上训练的语言模型可以将广泛的知识编码到其参数中，并正确响应各种类型的查询。此外，这些知识可以帮助基于LLM的智能体做出明智的决策[222]。所有这些知识大致可以分为以下几类：

语言知识。语言知识[142,143,144]表现为一种约束系统，即语法，它定义了语言中所有且仅有的可能句子。它包括形态学、句法学、语义学[145,146]和语用学。只有获得语言知识的智能体才能理解句子并进行多轮对话[147]。此外，通过在包含多种语言的数据集上进行训练，这些智能体可以获得多语言知识[132]，无需额外的翻译模型。

常识知识。常识知识[148,149,150]是指大多数人在早期就被教导的一般世界事实。例如，人们通常知道药物用于治疗疾病，雨伞用于防雨。此类信息通常在上下文中不会明确提及。因此，缺乏相应常识知识的模型可能无法理解或误解意图[141]。同样，没有常识知识的智能体可能会做出错误的决策，例如在大雨时不带雨伞。

专业领域知识。专业领域知识是指与特定领域（如编程[151,154,150]、数学[152]、医学[153]等）相关的知识。对于模型有效解决特定领域内的问题至关重要[223]。例如，旨在执行编程任务的模型需要具备编程知识，如代码格式。同样，用于诊断目的的模型应该具备医学知识，如特定疾病的名称和处方药。

尽管LLM在获取、存储和利用知识方面表现出色[155]，但仍然存在潜在问题和未解决的问题。例如，模型在训练过程中获得的知识可能会过时，甚至从一开始就是错误的。一种简单的解决方法是重新训练。然而，这需要新的数据、大量时间和计算资源。更糟糕的是，它可能导致灾难性遗忘[156]。因此，一些研究人员[157,158,159]尝试编辑LLM以定位和修改模型中存储的特定知识。这涉及卸载错误知识并同时获取新知识。他们的实验表明，这种方法可以部分编辑事实知识，但其潜在机制仍需进一步研究。此外，LLM可能会生成与源信息或事实信息相冲突的内容，这种现象通常被称为幻觉[225]。这是LLM不能广泛用于事实严谨任务的关键原因之一。为了解决这个问题，一些研究人员[160]提出了一种度量标准来衡量幻觉水平，并为开发人员提供评估LLM输出可信度的有效参考。此外，一些研究人员[161,162]使LLM能够利用外部工具[94,226,227]来避免错误知识。这两种方法都可以减轻幻觉的影响，但仍需要进一步探索更有效的方法。

3.1.3记忆（Memory）

在我们的框架中，“记忆”存储智能体过去观察、想法和行动的序列，类似于Nuxoll等人[228]提出的定义。就像人类大脑依靠记忆系统回顾过去的经验以制定策略和决策一样，智能体需要特定的记忆机制来确保能够熟练处理一系列连续任务[229,230,231]。在面对复杂问题时，记忆机制帮助智能体回顾和有效应用先前的策略。此外，这些记忆机制使智能体能够通过借鉴过去的经验适应不熟悉的环境。

随着基于LLM的智能体交互周期的扩大，出现了两个主要挑战。第一个挑战与历史记录的长度有关。基于LLM的智能体以自然语言格式处理先前的交互，并将历史记录附加到每个后续输入中。随着这些记录的增加，它们可能会超过大多数基于LLM的智能体所依赖的Transformer架构的限制。当这种情况发生时，系统可能会截断一些内容。第二个挑战是提取相关记忆的困难。随着智能体积累大量的历史观察和行动序列，它们面临着不断增加的记忆负担。这使得在相关主题之间建立联系变得越来越困难，可能导致智能体的响应与当前上下文不一致。

提高记忆能力的方法。这里我们介绍几种提高基于LLM的智能体记忆的方法。

提高Transformers的长度限制。第一种方法试图解决或缓解固有序列长度的限制。由于这些内在限制，Transformer架构在处理长序列时存在困难。随着序列长度的增加，由于自注意力机制中的成对标记计算，计算需求呈指数级增长。缓解这些长度限制的策略包括文本截断[163,164,232]、分割输入[233,234]和强调文本的关键部分[235,236,237]。一些其他工作修改注意力机制以降低复杂度，从而适应更长的序列[238,165,166,167]。

总结记忆。提高记忆效率的第二种策略基于记忆总结的概念。这确保智能体能够轻松从历史交互中提取关键细节。已经提出了各种用于总结记忆的技术。一些方法使用提示简洁地整合记忆[168]，而另一些方法则强调反思过程以创建精简的记忆表示[22,239]。分层方法将对话简化为日常快照和总体总结[170]。值得注意的是，特定策略将环境反馈转换为文本封装，增强智能体对未来交互的上下文理解[169]。此外，在多智能体环境中，智能体通信的关键元素被捕获和保留[171]。

用向量或数据结构压缩记忆。通过采用合适的数据结构，智能体可以提高记忆检索效率，促进对交互的快速响应。值得注意的是，一些方法依赖于嵌入向量来表示记忆部分、计划或对话历史[109,170,172,174]。另一种方法将句子转换为三元组配置[173]，而一些方法将记忆视为独特的数据对象，促进各种交互[176]。此外，ChatDB[175]和DB - GPT[240]将LLM与SQL数据库集成，通过SQL命令实现数据操作。

记忆检索方法。当智能体与环境或用户交互时，必须从其记忆中检索最合适的内容。这确保智能体能够访问相关且准确的信息以执行特定行动。一个重要的问题是：智能体如何选择最合适的记忆？通常，智能体以自动方式检索记忆[170,174]。自动检索的一种重要方法考虑三个指标：近期性、相关性和重要性。记忆分数由这些指标的加权组合确定，得分最高的记忆在模型的上下文中被优先考虑[22]。

一些研究引入了交互式记忆对象的概念，它是对话历史的表示，可以通过总结进行移动、编辑、删除或组合。用户可以查看和操作这些对象，影响智能体对对话的感知[176]。同样，其他研究允许根据用户提供的特定命令进行记忆操作，如删除[175]。这些方法确保记忆内容与用户期望紧密匹配。

3.1.4推理和规划（Reasoning and Planning）

推理。推理基于证据和逻辑，是人类智力活动的基础，是解决问题、决策和批判性分析的基石[241,242,243]。演绎、归纳和溯因是智力活动中公认的主要推理形式[244]。对于基于LLM的智能体来说，与人类一样，推理能力对于解决复杂任务至关重要[25]。

关于大型语言模型的推理能力存在不同的学术观点。一些人认为语言模型在预训练或微调过程中具有推理能力[244]，而另一些人则认为推理能力在达到一定规模后才会涌现[26,245]。具体来说，代表性的思维链（CoT）方法[95,96]已被证明可以通过引导LLM在输出答案之前生成推理过程来激发其推理能力。还提出了其他一些策略来提高LLM的性能，如自一致性[97]、自优化[99]、自精炼[178]和选择 - 推理[177]等。一些研究表明，逐步推理的有效性可归因于训练数据的局部统计结构，变量之间的局部结构化依赖关系比在所有变量上进行训练具有更高的数据效率[246]。

规划。规划是人类面对复杂挑战时采用的关键策略。对于人类来说，规划有助于组织思想、设定目标并确定实现这些目标的步骤[247,248,249]。与人类一样，规划能力对于智能体也至关重要，而规划模块的核心是推理能力[250,251,252]。这为基于LLM的智能体提供了一个结构化的思维过程。通过推理，智能体将复杂任务分解为更易于管理的子任务，并为每个子任务制定适当的计划[253,254]。此外，随着任务的进展，智能体可以进行反思以修改其计划，确保它们更好地适应现实世界的情况，从而实现自适应和成功的任务执行。

通常，规划包括两个阶段：计划制定和计划反思。

计划制定。在计划制定过程中，智能体通常将一个总体任务分解为多个子任务，并且在这个阶段已经提出了各种方法。值得注意的是，一些工作主张基于LLM的智能体一次性全面分解问题，一次性制定完整的计划，然后按顺序执行[98,179,255,256]。相比之下，其他研究（如CoT系列）采用自适应策略，一次规划和处理一个子任务，从而更灵活地处理整个复杂任务[95,96,257]。此外，一些方法强调分层规划[182,185]，而另一些方法则强调从树状结构的推理步骤中得出最终计划。后一种方法认为智能体在确定最终计划之前应该评估所有可能的路径[97,181,184,258,184]。虽然基于LLM的智能体展示出广泛的通用知识，但在面对需要专业知识的情况时，它们可能会遇到挑战。通过将智能体与特定领域的规划器集成来增强它们的性能已被证明是有效的[125,130,186,259]。

计划反思。在制定计划后，必须对其进行反思和评估。基于LLM的智能体利用内部反馈机制，通常从现有模型中获取见解，以完善和增强其策略和规划方法[169,178,188,192]。为了更好地符合人类价值观和偏好，智能体积极与人类互动，允许他们纠正一些误解并将这些定制的反馈纳入其规划方法中[108,189,190]。此外，它们可以从有形或虚拟环境中获取反馈，例如任务完成的提示或行动后的观察结果，帮助它们修改和完善计划[91,101,187,191,260]。

3.1.5可迁移性和泛化（Transferability and Generalization）

智能不应局限于特定领域或任务，而应涵盖广泛的认知技能和能力[31]。人类大脑的非凡之处在很大程度上归因于其高度的可塑性和适应性。它可以根据外部刺激和内部需求不断调整其结构和功能，从而适应不同的环境和任务。近年来，大量研究表明，在大规模语料库上预训练的模型可以学习通用语言表示[36,261,262]。利用预训练模型的力量，只需使用少量数据进行微调，LLM就可以在下游任务中表现出色[263]。无需从头开始训练新模型，这节省了大量计算资源。然而，通过这种特定任务的微调，模型缺乏通用性，难以推广到其他任务。与仅仅作为静态知识存储库不同，基于LLM的智能体表现出动态学习能力，使其能够快速、稳健地适应新任务[24,105,106]。

未见过的任务泛化。研究表明，经过指令调整的LLM无需特定任务的微调即可展示零样本泛化能力[24,25,105,106,107]。随着模型规模和语料库规模的扩大，LLM在不熟悉的任务中逐渐展现出显著的涌现能力[132]。具体来说，LLM可以根据自己的理解遵循指令完成在训练阶段未遇到的新任务。其中一种实现方式是多任务学习，例如，FLAN[105]在通过指令描述的一组任务上对语言模型进行微调，T0[106]引入了一个统一框架，将每个语言问题转换为文本到文本格式。尽管纯粹是一个语言模型，GPT - 4[25]在各种领域和任务中展示出了非凡的能力，包括抽象、理解、视觉、编码、数学、医学、法律、理解人类动机和情感等[31]。需要注意的是，提示的选择对于适当的预测至关重要，直接在提示上进行训练可以提高模型在泛化到未见过任务时的鲁棒性[264]。有望通过扩大模型规模以及训练指令的数量或多样性来进一步增强这种泛化能力[94,265]。

上下文学习。大量研究表明，LLM 能够通过上下文学习（ICL）执行各种复杂任务，这是指模型从上下文中的几个示例中学习的能力[195]。少样本上下文学习通过将原始输入与几个完整的示例连接作为提示来丰富上下文，从而提高语言模型的预测性能[41]。ICL 的关键思想是类比学习，这与人类的学习过程相似[266]。此外，由于提示是用自然语言编写的，所以交互是可解释和可变的，使得将人类知识融入 LLM 更加容易[95,267]。与监督学习过程不同，ICL 不涉及微调或参数更新，这可以大大降低使模型适应新任务的计算成本。除了文本之外，研究人员还在探索 ICL 在不同多模态任务中的潜在能力[193,194,268,269,270,271]，使得智能体能够应用于大规模的现实世界任务。

持续学习。最近的研究[190,272]强调了 LLM 的规划能力在促进智能体持续学习[196,197]方面的潜力，这涉及到技能的持续获取和更新。持续学习的一个核心挑战是灾难性遗忘[273]：当模型学习新任务时，它往往会忘记以前任务中的知识。人们已经做出了许多努力来应对上述挑战，大致可以分为三类：引入与先前模型相关的常用术语[274,275,276,277]、近似先前的数据分布[278,279,280]以及设计具有任务自适应参数的架构[281,198]。基于 LLM 的智能体已经成为一种新的范式，利用 LLM 的规划能力结合现有技能并应对更复杂的挑战。Voyager[190]试图解决由 GPT - 4[25]设计的自动课程提出的越来越难的任务。通过从更简单的程序合成复杂技能，智能体不仅能够快速提高其能力，还能有效地应对灾难性遗忘。

3.2. 感知（Perception）

人类和动物都依靠眼睛和耳朵等感觉器官从周围环境中收集信息。这些感知输入被转换为神经信号并发送到大脑进行处理[299,300]，使我们能够感知和与世界互动。同样，对于基于 LLM 的智能体来说，从各种来源和模态接收信息至关重要。这种扩展的感知空间有助于智能体更好地理解其环境、做出明智的决策，并在更广泛的任务中表现出色，这是一个重要的发展方向。智能体通过感知模块将这些信息传递给大脑模块进行处理。

在本节中，我们介绍如何使基于 LLM 的智能体获得多模态感知能力，包括文本（§3.2.1）、视觉（§3.2.2）和听觉输入（§3.2.3）。我们还考虑了其他潜在的输入形式（§3.2.4），如触觉反馈、手势和 3D 地图，以丰富智能体的感知领域并增强其通用性。基于 LLM 的智能体感知类型图如图 4 所示。在这里插入图片描述

3.2.1 文本输入

文本是承载数据、信息和知识的一种方式，使得文本交流成为人类与世界互动的最重要方式之一。基于 LLM 的智能体已经具备了通过文本输入和输出与人类进行基本交流的能力[114]。在用户的文本输入中，除了明确的内容外，还隐藏着信念、欲望和意图。理解隐含意义对于智能体把握人类用户的潜在和深层次意图、提高与用户的交流效率和质量至关重要。然而，如§3.1.1 所述，对于当前的基于 LLM 的智能体来说，理解文本输入中的隐含意义仍然具有挑战性。例如，一些工作[128,218,219,220]采用强化学习来感知隐含意义并对模型反馈进行建模以得出奖励。这有助于推断说话者的偏好，从而使智能体做出更个性化和准确的响应。此外，由于智能体是为在复杂的现实世界情况下使用而设计的，它必然会遇到许多全新的任务。理解未知任务的文本指令对智能体的文本感知能力提出了更高的要求。如§3.1.5 所述，经过指令调整的 LLM[105]可以展示出显著的零样本指令理解和泛化能力，无需特定任务的微调。

3.2.2 视觉输入

虽然 LLM 在语言理解[25,301]和多轮对话[302]方面表现出色，但它们本身缺乏视觉感知能力，只能理解离散的文本内容。视觉输入通常包含关于智能体周围世界的丰富信息，包括物体的属性、空间关系、场景布局等。因此，将视觉信息与其他模态的数据集成可以为智能体提供更广泛的上下文和更精确的理解[120]，加深智能体对环境的感知。

为了帮助智能体理解图像中包含的信息，一种直接的方法是为图像输入生成相应的文本描述，即图像字幕[303,304,305,306,307]。字幕可以直接与标准文本指令链接并输入到智能体中。这种方法具有高度的可解释性，并且不需要额外的字幕生成训练，这可以节省大量的计算资源。然而，字幕生成是一种低带宽方法[120,308]，在转换过程中可能会丢失大量潜在信息。此外，智能体对图像的关注可能会引入偏差。

受 transformers 在自然语言处理中出色表现的启发[309]，研究人员将其应用扩展到计算机视觉领域。代表性工作如 ViT/VQVAE[282,283,284,285,310]已经成功地使用 transformers 对视觉信息进行编码。研究人员首先将图像划分为固定大小的补丁，然后在经过线性投影后将这些补丁视为 Transformers 的输入标记[292]。最后，通过计算标记之间的自注意力，他们能够整合整个图像的信息，从而实现了一种高效的视觉内容感知方式。因此，一些工作[311]尝试直接将图像编码器和 LLM 组合，以端到端的方式训练整个模型。虽然智能体可以获得显著的视觉感知能力，但这需要大量的计算资源。

广泛预训练的视觉编码器和 LLM 可以极大地增强智能体的视觉感知和语言表达能力[286,312]。在训练过程中冻结其中一个或两个是一种广泛采用的范式，可以在训练资源和模型性能之间取得平衡[287]。然而，LLM 不能直接理解视觉编码器的输出，因此需要将图像编码转换为 LLM 能够理解的嵌入。换句话说，这涉及到将视觉编码器与 LLM 对齐。这通常需要在它们之间添加一个额外的可学习接口层。例如，BLIP - 2[287]和 InstructBLIP[288]使用 Querying Transformer(Q - Former)模块作为视觉编码器和 LLM 之间的中间层[288]。Q - Former 是一个采用可学习查询向量的 transformer[289]，使其能够提取具有语言信息的视觉表示。它可以为 LLM 提供最有价值的信息，减轻智能体学习视觉 - 语言对齐的负担，从而缓解灾难性遗忘的问题。同时，一些研究人员采用计算效率高的方法，使用单个投影层实现视觉 - 文本对齐，减少了训练额外参数的需求[118,291,312]。此外，投影层可以有效地与可学习接口集成，以适应其输出的维度，使其与 LLM 兼容[296,297,313,314]。

视频输入由一系列连续的图像帧组成。因此，智能体用于感知图像的方法[287]可能适用于视频领域，使智能体能够对视频输入有良好的感知。与图像信息相比，视频信息增加了时间维度。因此，智能体对不同帧之间时间关系的理解对于感知视频信息至关重要。一些工作如 Flamingo[290,315]在理解视频时使用掩码机制确保时间顺序。掩码机制在智能体感知视频中的特定帧时，限制其视图只能访问较早时间的帧的视觉信息。

3.2.3 听觉输入

毫无疑问，听觉信息是世界信息的重要组成部分。当智能体具备听觉能力时，它可以提高对交互内容、周围环境甚至潜在危险的意识。确实，已经有许多成熟的模型和方法[293,316,317]用于独立处理音频模态。然而，这些模型通常在特定任务上表现出色。鉴于 LLM 出色的工具使用能力（将在§3.3 中详细讨论），一个非常直观的想法是智能体可以使用 LLM 作为控制中心，以级联方式调用现有的工具集或模型库来感知音频信息。例如，AudioGPT[293]充分利用了 FastSpeech[317]、GenerSpeech[316]、Whisper[316]等在文本到语音、风格转换和语音识别等任务中取得出色成果的模型的能力[318,319,320,321,322]。

音频频谱图提供了音频信号随时间变化的频谱的直观表示[323]。对于一段时间内的一段音频数据，可以将其抽象为有限长度的音频频谱图。音频频谱图具有 2D 表示，可以可视化为平面图像。因此，一些研究[294,295]致力于将视觉领域的感知方法迁移到音频领域。AST（音频频谱图 Transformer）[294]采用类似于 ViT 的 Transformer 架构来处理音频频谱图图像。通过将音频频谱图划分为补丁，它实现了对音频信息的有效编码。此外，一些研究人员[296,297]从冻结编码器的想法中获得灵感，以减少训练时间和计算成本。他们通过添加相同的可学习接口层，将音频编码与其他模态的数据编码对齐。

3.2.4 其他输入

如前所述，许多研究已经关注了文本、视觉和音频的感知单元。然而，基于 LLM 的智能体可能配备更丰富的感知模块。在未来，它们可能能够像人类一样感知和理解现实世界中的各种模态。例如，智能体可以拥有独特的触觉和嗅觉器官，使其在与物体交互时能够收集更详细的信息。同时，智能体还可以对周围环境的温度、湿度和亮度有清晰的感知，从而能够采取环境感知行动。此外，通过有效集成视觉、文本和光敏感度等基本感知能力，智能体可以开发出各种对人类友好的感知模块。InternGPT[298]引入了指向指令。用户可以通过使用手势或移动光标选择、拖动或绘制来与图像中难以描述的特定部分进行交互。添加指向指令有助于为单个文本指令提供更精确的规范。在此基础上，智能体有潜力感知更复杂的用户输入。例如，在 AR/VR 设备中的眼动追踪技术、身体运动捕捉技术，甚至脑机交互中的脑电波信号。

最后，一个类人的基于 LLM 的智能体应该对更广泛的整体环境有感知。目前，许多成熟且广泛应用的硬件设备可以帮助智能体实现这一点。激光雷达[324]可以创建 3D 点云地图，帮助智能体检测和识别周围的物体。GPS[325]可以提供准确的位置坐标，并可以与地图数据集成。惯性测量单元（IMUs）可以测量和记录物体的三维运动，提供关于物体速度和方向的详细信息。然而，这些传感数据很复杂，不能直接被基于 LLM 的智能体理解。探索智能体如何感知更全面的输入是未来的一个有前途的方向。

3.3. 行动（Action）

人类在感知环境后，大脑会整合、分析和推理感知到的信息并做出决策。随后，他们利用神经系统控制身体，以适应或创造性地应对环境，例如进行对话、避开障碍物或生火。当智能体拥有类似大脑的结构，具备知识、记忆、推理、规划和泛化能力，以及多模态感知能力时，它也有望拥有类似于人类的多样化行动来应对周围环境。在智能体的构建中，行动模块接收大脑模块发送的行动序列并执行行动以与环境交互。如图 5 所示，本节首先介绍文本输出（§3.3.1），这是基于 LLM 的智能体的固有能力。接下来我们讨论基于 LLM 的智能体的工具使用能力（§3.3.2），这已被证明在增强其通用性和专业性方面是有效的。最后，我们讨论为基于 LLM 的智能体配备具身行动以促进其在物理世界中的落地（§3.3.3）。
在这里插入图片描述

3.3.1 文本输出（Textual Output）

如§3.1.1 所述，基于 Transformer 的生成式大型语言模型的兴起和发展赋予了基于 LLM 的智能体固有的语言生成能力[132,213]。它们生成的文本在流畅性、相关性、多样性和可控性等方面表现出色[127,214,134,216]。因此，基于 LLM 的智能体可以成为非常强大的语言生成器。

3.3.2 工具使用（Tool Using）

工具是工具使用者能力的扩展。当面对复杂任务时，人类使用工具来简化任务解决过程并提高效率，节省时间和资源。同样，如果智能体也学会使用和利用工具，它们有可能更高效、高质量地完成复杂任务[94]。

基于 LLM 的智能体在某些方面存在局限性，而工具的使用可以增强智能体的能力。首先，虽然基于 LLM 的智能体拥有强大的知识库和专业知识，但它们无法记住每一条训练数据[341,342]。由于上下文提示的影响，它们可能无法引导到正确的知识，甚至可能产生幻觉知识[208]。再加上缺乏针对特定领域和场景的语料库、训练数据和微调，智能体在特定领域的专业知识也有限[343]。专门的工具使 LLM 能够以可插拔的形式增强其专业知识、适应领域知识并更适合特定领域的需求。此外，基于 LLM 的智能体的决策过程缺乏透明度，这使得它们在医疗和金融等高风险领域的可信度较低[344]。此外，LLM 容易受到对抗攻击[345]，并且对轻微的输入修改的鲁棒性不足。相比之下，借助工具完成任务的智能体表现出更强的可解释性和鲁棒性。工具的执行过程可以反映智能体解决复杂需求的方法，并增强其决策的可信度。而且，由于工具是专门为其各自的使用场景设计的，使用这些工具的智能体能够更好地处理轻微的输入修改，并对对抗攻击更具弹性[94]。

基于 LLM 的智能体不仅需要使用工具，而且非常适合工具集成。利用预训练过程中积累的丰富世界知识和 CoT 提示，LLM 在复杂交互环境中表现出了显著的推理和决策能力[97]，这有助于智能体以适当的方式分解和处理用户指定的任务。此外，LLM 在意图理解等方面也显示出巨大潜力[25,201,202,203]。当智能体与工具结合时，可以降低工具使用的门槛，从而充分释放人类用户的创造潜力[94]。

理解工具。智能体有效使用工具的前提是全面理解工具的应用场景和调用方法。如果没有这种理解，智能体使用工具的过程将不可靠，无法真正增强其能力。利用 LLM 强大的零样本和少样本学习能力[40,41]，智能体可以通过利用描述工具功能和参数的零样本提示，或提供特定工具使用场景和相应方法演示的少样本提示来获取工具知识[92,326]。这些学习方法类似于人类查阅工具手册或观察他人使用工具的学习方式[94]。当面对复杂任务时，单个工具往往是不够的。因此，智能体应该首先以适当的方式将复杂任务分解为子任务，而它们对工具的理解在任务分解中起着重要作用。

学习使用工具。智能体学习使用工具的方法主要包括从演示中学习和从反馈中学习。这涉及模仿人类专家的行为[346,347,348]，以及理解其行为的后果并根据来自环境和人类的反馈进行调整[24,349,350]。环境反馈包括关于行动是否成功完成任务的结果反馈以及捕捉行动引起的环境状态变化的中间反馈；人类反馈包括明确的评估和隐含的行为，如点击链接[94]。

如果智能体僵化地应用工具而没有适应性，它就无法在所有场景中都取得可接受的性能。智能体需要将在特定上下文中学习到的工具使用技能推广到更一般的情况，例如将在雅虎搜索上训练的模型转移到谷歌搜索。为了实现这一点，智能体必须掌握工具使用策略中的共同原则或模式，这可能通过元工具学习来实现[327]。增强智能体对简单和复杂工具之间关系的理解，例如复杂工具是如何基于简单工具构建的，有助于提高智能体推广工具使用的能力。这使智能体能够有效地区分各种应用场景之间的细微差别，并将先前学习的知识转移到新工具上[94]。课程学习[351]，即让智能体从简单工具开始逐步学习复杂工具，符合这一要求。此外，得益于对用户意图的推理和规划能力，智能体可以更好地设计工具使用和协作方法，从而提供更高质量的结果。

制作工具以实现自给自足。现有的工具通常是为了方便人类而设计的，对于智能体来说可能不是最优的。为了使智能体更好地使用工具，需要专门为智能体设计的工具。这些工具应该更模块化，并且具有更适合智能体的输入 - 输出格式。如果提供了指令和演示，基于 LLM 的智能体也有能力通过生成可执行程序或集成现有工具来创建工具[94,330,352]，并且它们可以学习进行自我调试[331]。此外，如果作为工具制造者的智能体成功创建了一个工具，它除了自己使用该工具外，还可以为多智能体系统中的其他智能体生成包含工具代码和演示的包[329]。可以推测，在未来，智能体可能在工具方面变得自给自足并表现出高度的自主性。

工具可以扩展基于 LLM 的智能体的行动空间。借助工具，智能体可以在推理和规划阶段利用各种外部资源，如网络应用程序和其他语言模型[92]。这个过程可以为基于 LLM 的智能体提供具有高专业性、可靠性、多样性和质量的信息，促进其决策和行动。例如，基于搜索的工具可以借助外部数据库、知识图谱和网页提高智能体可访问的知识范围和质量，而特定领域的工具可以增强智能体在相应领域的专业知识[211,353]。一些研究人员已经开发出基于 LLM 的控制器，用于生成 SQL 语句来查询数据库，或将用户查询转换为搜索请求并使用搜索引擎获取所需结果[90,175]。此外，基于 LLM 的智能体可以使用科学工具执行化学中的有机合成等任务，或与 Python 解释器接口以提高其在复杂数学计算任务上的性能[354,355]。对于多智能体系统，通信工具（如电子邮件）可以作为智能体在严格安全约束下相互交互的手段，促进它们的协作，并显示出自主性和灵活性[94]。

虽然前面提到的工具增强了智能体的能力，但与环境交互的媒介仍然是基于文本的。然而，工具的设计目的是扩展语言模型的功能，其输出不限于文本。非文本输出的工具可以使智能体行动的模态多样化，从而扩展基于 LLM 的智能体的应用场景。例如，智能体可以利用视觉模型完成图像处理和生成任务[328]。在航空航天工程中，正在探索智能体对物理进行建模和求解复杂微分方程的能力[356]；在机器人领域，智能体需要规划物理操作并控制机器人执行[179]等等。能够通过工具或多模态方式与环境或世界进行动态交互的智能体可以被称为数字化具身[94]。智能体的具身化一直是具身学习研究的核心焦点。我们将在§3.3.3 中深入讨论智能体的具身行动。

3.3.3 具身行动（Embodied Action）

在追求通用人工智能（AGI）的过程中，具身智能体被认为是一个关键范式，它致力于将模型智能与物理世界相结合。具身假设[357]从人类智能发展过程中汲取灵感，提出智能体的智能源于与环境的持续交互和反馈，而不是仅仅依赖精心编制的教科书。同样，与传统的深度学习模型从互联网数据集中学习明确的能力以解决领域问题不同，人们期望基于 LLM 的智能体的行为不再局限于纯文本输出或调用特定工具来执行特定领域任务[358]。相反，它们应该能够主动感知、理解和与物理环境交互，做出决策，并根据 LLM 的广泛内部知识产生特定行为来改变环境。我们将这些统称为具身行动，它使智能体能够以类似于人类行为的方式与世界交互和理解世界。

基于 LLM 的智能体具身行动的潜力。在 LLM 广泛兴起之前，研究人员倾向于使用强化学习等方法来探索智能体的具身行动。尽管基于 RL 的具身化取得了广泛的成功[359,360,361]，但它在某些方面确实存在局限性。简而言之，由于在建模动态且常常模糊的真实环境方面存在挑战，或者对精确的奖励信号表示有严重依赖，RL 算法在数据效率、泛化和复杂问题推理方面面临限制[362]。最近的研究表明，利用 LLM 预训练过程中获得的丰富内部知识可以有效缓解这些问题[120,187,258,363]。

成本效率。一些在线策略算法在样本效率方面存在困难，因为它们需要新的数据来更新策略，而收集足够的具身数据进行高性能训练既昂贵又嘈杂。这种限制在一些端到端模型中也存在[364,365,366]。通过利用 LLM 的内在知识，像 PaLM - E[120]这样的智能体将机器人数据与通用视觉 - 语言数据联合训练，在具身任务中实现了显著的转移能力，同时也表明几何输入表示可以提高训练数据效率。

具身行动泛化。如§3.1.5 所述，智能体的能力应该超越特定任务。当面对复杂、未知的现实世界环境时，智能体必须展示出动态学习和泛化能力。然而，大多数 RL 算法是为训练和评估特定任务的相关技能而设计的[101,367,368,369]。相比之下，经过多种形式和丰富任务类型的微调，LLM 展示出了显著的跨任务泛化能力[370,371]。例如，PaLM - E 对新对象或现有对象的新颖组合表现出惊人的零样本或单样本泛化能力[120]。此外，语言能力是基于 LLM 的智能体的一个独特优势，它既是与环境交互的手段，也是将基础技能转移到新任务的媒介[372]。SayCan[179]使用 LLM 将提示中的任务指令分解为相应的技能命令，但在部分可观察环境中，有限的先前技能往往无法取得令人满意的性能[101]。为了解决这个问题，Voyager[190]引入了技能库组件来持续收集新颖的自我验证技能，从而实现了智能体的终身学习能力。

具身行动规划。规划是人类应对复杂问题以及基于 LLM 的智能体所采用的关键策略。在 LLM 展示出显著的推理能力之前，研究人员引入了分层强化学习（HRL）方法，其中高级策略约束低级策略的子目标，低级策略产生适当的行动信号[373,374,375]。与高级策略的作用类似，具有新兴推理能力的 LLM[26]可以以零样本或少样本的方式无缝应用于复杂任务[95,97,98,99]。此外，来自环境的外部反馈可以进一步增强基于 LLM 的智能体的规划性能。基于当前的环境反馈，一些工作[101,91,100,376]动态地生成、维护和调整高级行动计划，以在部分可观察环境中尽量减少对先前知识的依赖，从而使计划更加切实可行。反馈也可以来自模型或人类，通常可以被称为评估者，根据当前状态和任务提示评估任务完成情况[25,190]。

基于 LLM 的智能体的具身行动。根据智能体在任务中的自主程度或行动的复杂性，存在几种基本的基于 LLM 的具身行动，主要包括观察、操作和导航。

观察。观察是智能体获取环境信息和更新状态的主要方式，在提高后续具身行动效率方面起着至关重要的作用。如§3.2 所述，具身智能体的观察主要发生在具有各种输入的环境中，这些输入最终汇聚成多模态信号。一种常见的方法是使用预训练的 Vision Transformer（ViT）作为文本和视觉信息的对齐模块，并标记特殊标记来表示多模态数据的位置[120,332,121]。Soundspaces[377]提出通过混响音频输入引导识别物理空间几何元素，以更全面的视角增强智能体的观察。最近，更多的研究将音频作为嵌入式观察的一种模态。除了广泛采用的级联范式[293,378,316]，类似于 ViT 的音频信息编码进一步增强了音频与其他输入模态的无缝集成[294]。智能体对环境的观察也可以来自人类的实时语言指令，而人类反馈有助于智能体获取可能不容易获得或解析的详细信息[333,190]。

操作。一般来说，具身智能体的操作任务包括物体重新排列、桌面操作和移动操作[23,120]。一个典型的例子是智能体在厨房中执行一系列任务，包括从抽屉中取出物品并递给用户，以及清洁桌面[179]。除了精确观察外，这还涉及通过利用 LLM 组合一系列子目标。因此，保持智能体状态和子目标之间的同步非常重要。DEPS[183]利用基于 LLM 的交互式规划方法来保持这种一致性，并在多步、长程推理过程中帮助从智能体反馈中进行纠错。相比之下，AlphaBlock[334]专注于更具挑战性的操作任务（例如用积木制作笑脸），这需要智能体对指令有更深入的理解。与现有的开环范式不同，AlphaBlock 构建了一个包含 35 个复杂高级任务以及相应的多步规划和观察对的数据集，并对多模态模型进行微调，以增强其对高级认知指令的理解。

导航。导航使智能体能够在环境中动态改变其位置，这通常涉及多角度和多对象观察，以及基于当前探索的长程操作[23]。在导航之前，具身智能体必须建立关于外部环境的先验内部地图，通常以拓扑图、语义图或占用图的形式[358]。例如，LM - Nav[335]利用 VNM[379]创建内部拓扑图。它进一步利用 LLM 和 VLM 分解输入命令并分析环境以找到最佳路径。此外，一些研究[380,381]强调了空间表示的重要性，通过利用预训练的 VLM 模型将图像的视觉特征与物理世界的 3D 重建相结合，实现了对空间目标的精确定位，而不是传统的以点或对象为中心的导航行动[358]。导航通常是一个长程任务，智能体的未来状态受其过去行动的影响。需要一个记忆缓冲区和总结机制作为历史信息的参考[336]，这也在 Smallville 和 Voyager[22,190,382,383]中使用。此外，如§3.2 所述，一些工作提出音频输入也非常重要，但将音频信息与视觉环境相关联存在挑战。一个基本框架包括一个动态路径规划器，它使用视觉和听觉观察以及空间记忆来规划一系列导航行动[375,384]。

通过整合这些能力，智能体可以完成更复杂的任务，如具身问答，其主要目标是自主探索环境，并回答预定义的多模态问题，例如“厨房里的西瓜比锅大吗？哪个更硬？”为了回答这些问题，智能体需要导航到厨房，观察两个物体的大小，然后通过比较回答问题[358]。

在控制策略方面，如前所述，在特定具身数据集上训练的基于 LLM 的智能体通常生成高级策略命令来控制低级策略以实现特定子目标。低级策略可以是机器人变压器[120,385,386]，它以图像和指令为输入，并在特定具身任务中为末端执行器和机械臂生成控制命令[179]。最近，在虚拟具身环境中，高级策略被用于控制游戏[172,183,190,337]或模拟世界[22,108,109]中的智能体。例如，Voyager[190]调用 Mineflayer[387]API 接口来持续获取各种技能并探索世界。

具身行动的未来展望。基于 LLM 的具身行动被视为虚拟智能与物理世界之间的桥梁，使智能体能够像人类一样感知和改变环境。然而，仍然存在一些限制，如物理世界机器人操作的高成本和具身数据集的稀缺，这促使人们对在模拟环境（如 Minecraft[183,338,337,190,339]）中研究智能体的具身行动产生了越来越浓厚的兴趣。通过利用 Mineflayer[387]API，这些研究能够以具有成本效益的方式检查广泛的具身智能体操作，包括探索、规划、自我改进，甚至终身学习[190]。尽管取得了显著进展，但由于模拟平台与物理世界之间存在巨大差异，实现最佳具身行动仍然是一个挑战。为了使具身智能体能够在现实世界场景中有效部署，对紧密反映现实世界条件的具身任务范式和评估标准的需求日益增长[358]。另一方面，使智能体能够理解语言与物理世界的联系也是一个障碍。例如，“像猫一样跳下来”这样的表达主要传达了一种轻盈和宁静的感觉，但这种语言隐喻需要足够的世界知识[30]。[340]试图将文本提炼与事后经验回放（HER）相结合，构建一个数据集作为训练过程的监督信号。然而，仍然需要对具身数据集的基础研究进行进一步调查，而具身行动在人类生活的各个领域中发挥着越来越关键的作用。

4. 智能体在实践中的应用：利用人工智能造福人类

基于 LLM 的智能体作为一个新兴方向，受到了研究人员越来越多的关注。在特定领域和任务中已经开发了许多应用，展示了智能体强大而通用的能力。我们可以非常有信心地说，拥有一个能够协助用户完成典型日常任务的个人智能体的可能性比以往任何时候都大[398]。作为一个基于 LLM 的智能体，其设计目标应该始终对人类有益，即人类可以利用 AI 造福人类。具体来说，我们期望智能体能够实现以下目标：

帮助用户摆脱日常任务和重复性劳动，从而减轻人类工作压力并提高任务解决效率。
不再需要用户提供明确的低级指令。相反，智能体可以独立分析、规划和解决问题。
在解放用户双手之后，智能体还能解放他们的思维，使其能够从事探索性和创新性工作，在前沿科学领域充分发挥他们的潜力。

在本节中，我们对当前基于 LLM 的智能体的应用进行了深入概述，旨在为实际部署场景提供一个广泛的视角（见图 7）。首先，我们阐明了单智能体的多样化应用场景，包括任务导向、创新导向和生命周期导向的场景（§4.1）。然后，我们展示了多智能体的显著协调潜力。无论是通过互补的合作交互还是通过对抗性交互促进进步，这两种方法都可以提高任务效率和响应质量（§4.2）。最后，我们将人机交互协作分为两种范式，并分别介绍其主要形式和具体应用（§4.3）。基于 LLM 的智能体应用拓扑图如图 6 所示。
在这里插入图片描述

4.1. 单智能体的一般能力

目前，基于 LLM 的智能体的应用实例正在蓬勃发展[429,430,431]。AutoGPT[114]是目前正在进行的热门开源项目之一，旨在实现一个完全自主的系统。除了像 GPT - 4 这样的大型语言模型的基本功能外，AutoGPT 框架还集成了各种实用的外部工具和长/短期记忆管理。用户输入自定义目标后，他们就可以放手等待 AutoGPT 自动生成想法并执行特定任务，而无需额外的用户提示。

如图 8 所示，我们介绍了在只有一个单智能体的场景中智能体所展示的惊人多样的能力。
在这里插入图片描述

4.1.1 任务导向部署

能够理解人类自然语言命令并执行日常任务的基于 LLM 的智能体[391]是目前用户最喜欢且最具实用价值的智能体之一。这是因为它们有可能提高任务效率、减轻用户工作量并促进更广泛的用户群体使用。在任务导向部署中，智能体遵循用户的高级指令，承担诸如目标分解[182,258,388,394]、子目标序列规划[182,395]、环境交互式探索[256,391,390,392]等任务，直到最终目标实现。

为了探索智能体是否能够执行基本任务，它们首先被部署在基于文本的游戏场景中。在这种类型的游戏中，智能体纯粹使用自然语言与世界交互[432]。通过阅读周围环境的文本描述并利用记忆、规划和试错等技能[182]，它们预测下一步行动。然而，由于基础语言模型的限制，智能体在实际执行过程中往往依赖强化学习[432,433,434]。

随着 LLM 的逐渐发展[301]，具有更强文本理解和生成能力的智能体已经展示出通过自然语言执行任务的巨大潜力。由于其过于简单的性质，单纯的基于文本的场景已经不足以作为基于 LLM 的智能体的测试场地[391]。为了满足需求，已经构建了更现实和复杂的模拟测试环境。根据任务类型，我们将这些模拟环境分为网络场景和生活场景，并介绍智能体在其中所扮演的具体角色。

在网络场景中。在网络场景中代表用户执行特定任务被称为网络导航问题[390]。智能体解释用户指令，将其分解为多个基本操作，并与计算机交互。这通常包括网络任务，如填写表格、在线购物和发送电子邮件。智能体需要具备在复杂网络场景中理解指令、适应变化（如嘈杂文本和动态 HTML 网页）和推广成功操作的能力[391]。这样，智能体在处理未来未见过的任务时可以实现可访问性和自动化，最终使人类从与计算机 UI 的重复交互中解脱出来。

通过强化学习训练的智能体可以使用预定义的操作（如打字、搜索、导航到下一页等）有效地模仿人类行为。它们在基本任务如在线购物[392]和搜索引擎检索[90]方面表现良好，这些任务已经得到了广泛的探索。然而，没有 LLM 能力的智能体可能难以适应现实世界互联网中更现实和复杂的场景。在动态、内容丰富的网页如在线论坛或在线业务管理[391]中，智能体的性能往往面临挑战。

为了使智能体能够与更现实的网页成功交互，一些研究人员[393,394]已经开始利用 LLM 强大的 HTML 阅读和理解能力。通过设计提示，他们试图使智能体理解整个 HTML 源代码并预测更合理的下一步操作步骤。Mind2Web[388]结合了多个针对 HTML 进行微调的 LLM，使其能够在现实世界场景中总结冗长的 HTML 代码[389]并提取有价值的信息。此外，WebGum[390]通过使用包含 HTML 截图的多模态语料库赋予智能体视觉感知能力。它同时对 LLM 和视觉编码器进行微调，加深了智能体对网页的全面理解。

在生活场景中。在生活场景中的许多日常家庭任务中，智能体需要理解隐含指令并应用常识知识[433]。对于仅在大量文本上进行训练的基于 LLM 的智能体来说，人类认为理所当然的任务可能需要多次试错尝试[432]。更现实的场景往往会导致更模糊和微妙的任务。例如，如果房间里很暗且有灯，智能体应该主动打开它。为了在厨房成功切菜，智能体需要预测刀的可能位置[182]。

智能体能否将其训练数据中嵌入的世界知识应用于实际交互场景？Huang 等人[258]率先探索了这个问题。他们表明，足够大的 LLM 在适当的提示下，可以有效地将高级任务分解为合适的子任务，而无需额外训练。然而，这种静态推理和规划能力有其潜在的缺点。智能体生成的行动往往缺乏对周围动态环境的感知。例如，当用户给出“打扫房间”的任务时，智能体可能会将其转换为不可行的子任务，如“叫清洁服务”[396]。

为了在交互过程中为智能体提供对全面场景信息的访问，一些方法直接将空间数据和物品 - 位置关系作为额外输入纳入模型。这使智能体能够获得对其周围环境的精确描述[395,396]。Wu 等人[182]引入了 PET 框架，通过早期纠错方法减轻环境信息中无关对象和容器的影响[256]。PET 鼓励智能体更有效地探索场景并规划行动，专注于当前子任务。

4.1.2 创新导向部署

基于 LLM 的智能体在执行任务和提高重复性工作效率方面表现出了强大的能力。然而，在更具智力挑战性的领域，如前沿科学，智能体的潜力尚未得到充分发挥。这种限制主要源于两个挑战[399]：一方面，科学的内在复杂性构成了一个重大障碍。许多特定领域的术语和多维结构难以用单一文本表示。因此，它们的完整属性无法完全封装。这大大削弱了智能体的认知水平。另一方面，科学领域严重缺乏合适的训练数据，使得智能体难以理解整个领域知识[400,436]。如果能够在智能体中发现自主探索能力，无疑将为人类技术带来有益的创新。

目前，在各个专业领域已经做出了许多努力来克服这一挑战[437,438,439]。计算机领域的专家充分利用智能体强大的代码理解和调试能力[398,397]。在化学和材料领域，研究人员为智能体配备了大量通用或特定任务的工具，以更好地理解领域知识。智能体演变成了全面的科学助手，擅长在线研究和文档分析以填补数据空白。它们还使用机器人 API 进行现实世界的交互，实现诸如材料合成和机制发现等任务[110,354,399]。

基于 LLM 的智能体在科学创新方面的潜力是显而易见的，但我们不希望它们的探索能力被用于可能威胁或伤害人类的应用中。Boiko 等人[110]研究了智能体在合成非法药物和化学武器方面的潜在危险，表明智能体可能会被恶意用户在对抗性提示下误导。这为我们未来的工作敲响了警钟。

4.1.3 生命周期导向部署

构建一个能够在开放、未知世界中持续探索、开发新技能并维持长期生命周期的通用智能体是一个巨大的挑战。这一成就被视为通用人工智能领域的一个关键里程碑[183]。Minecraft 作为一个典型且被广泛探索的模拟生存环境，已经成为开发和测试智能体综合能力的独特平台。玩家通常从学习基础知识开始，如伐木和制作工作台，然后再进行更复杂的任务，如与怪物战斗和制作钻石工具[190]。Minecraft 从根本上反映了现实世界，有利于研究人员研究智能体在真实世界中生存的潜力。

智能体在 Minecraft 中的生存算法一般可分为两种类型[190]：低级控制和高级规划。早期的努力主要集中在强化学习[190,440]和模仿学习[441]上，使智能体能够制作一些低级物品。随着 LLM 的出现，其展示出了惊人的推理和分析能力，智能体开始利用 LLM 作为高级规划器来指导模拟生存任务[183,339]。一些研究人员使用 LLM 将高级任务指令分解为一系列子目标[401]、基本技能序列[339]或基本键盘/鼠标操作[401]，逐渐帮助智能体探索开放世界。

Voyager[190]受类似于 AutoGPT[114]的概念启发，成为 Minecraft 中第一个基于 LLM 的具身终身学习智能体，其基于“发现尽可能多的不同事物”的长期目标。它引入了一个技能库用于存储和检索复杂的可执行代码动作，以及一个迭代提示机制，该机制结合了环境反馈和纠错。这使智能体能够在没有人类干预的情况下自主探索和适应未知环境。一个能够自主学习和掌握整个现实世界技术的 AI 智能体可能不再像以前认为的那样遥远[401]。

4.2. 多智能体的协调潜力

动机和背景。虽然基于 LLM 的智能体具有值得称赞的文本理解和生成能力，但它们本质上是孤立的实体[409]。它们缺乏与其他智能体协作和从社会交互中获取知识的能力。这种固有限制限制了它们从他人的多轮反馈中学习以提高性能的潜力[27]。此外，它们无法有效地部署在需要多个智能体之间协作和信息共享的复杂场景中。
在这里插入图片描述

早在 1986 年，马文·明斯基就做出了一个具有前瞻性的预测。在他的《心智社会》一书中[442]，他引入了一种新的智能理论，认为智能源于许多具有特定功能的较小智能体的相互作用。例如，某些智能体可能负责模式识别，而其他智能体可能处理决策或生成解决方案。随着分布式人工智能的兴起，这一想法已经付诸实践[443]。多智能体系统（MAS）[4]作为主要研究领域之一，专注于一组智能体如何有效地协调和协作以解决问题。早期设计了一些专门的通信语言，如 KQML[444]，以支持智能体之间的消息传输和知识共享。然而，它们的消息格式相对固定，语义表达能力有限。在 21 世纪，将强化学习算法（如 Q - learning）与深度学习相结合已成为开发在复杂环境中运行的 MAS 的突出技术[445]。如今，基于 LLM 的构建方法开始展示出巨大的潜力。智能体之间的自然语言通信变得更加优雅，对人类来说也更容易理解，从而导致交互效率的显著提高。

潜在优势。具体来说，基于 LLM 的多智能体系统可以提供几个优势。正如亚当·斯密在《国富论》中明确指出的那样[446]，“劳动生产力上最大的增进，以及运用劳动时所表现的更大的熟练、技巧和判断力，似乎都是分工的结果。”基于分工原则，配备专门技能和领域知识的单个智能体可以从事特定任务。一方面，通过分工，智能体处理特定任务的技能日益精湛。另一方面，将复杂任务分解为多个子任务可以消除在不同过程之间切换所花费的时间。最终，多个智能体之间的高效分工可以完成比没有专业化时大得多的工作量，从而大大提高整个系统的效率和输出质量。

在§4.1 中，我们已经全面介绍了基于 LLM 的智能体的通用能力。因此，在本节中，我们重点探讨智能体在多智能体环境中相互作用的方式。根据当前研究，这些相互作用大致可分为以下几类：互补的合作交互和促进进步的对抗性交互（见图 9）。
在这里插入图片描述

4.2.1 互补的合作交互

合作多智能体系统是实际应用中最广泛部署的模式。在这样的系统中，每个智能体评估其他智能体的需求和能力，并积极寻求与它们的协作行动和信息共享[108]。这种方法带来了许多潜在的好处，包括提高任务效率、改进集体决策以及解决单个智能体无法独立解决的复杂现实世界问题，最终实现协同互补的目标。在当前基于 LLM 的多智能体系统中，智能体之间的通信主要采用自然语言，这被认为是最自然和人类可理解的交互形式[108]。我们将现有的合作多智能体应用介绍并分类为两种类型：无序合作和有序合作。

无序合作。当系统中有三个或更多智能体时，每个智能体都可以自由表达自己的观点和意见。它们可以为修改与手头任务相关的响应提供反馈和建议[403]。整个讨论过程不受控制，没有特定的顺序，也没有引入标准化的协作工作流程。我们将这种多智能体合作称为无序合作。

ChatLLM 网络[402]是这一概念的典型代表。它模拟神经网络中的前向和后向传播过程，将每个智能体视为一个单独的节点。后续层的智能体需要处理来自所有前一层智能体的输入并向前传播。一种潜在的解决方案是在多智能体系统中引入一个专门的协调智能体，负责整合和组织所有智能体的响应，从而更新最终答案[447]。然而，整合大量反馈数据并提取有价值的见解对协调智能体来说是一个重大挑战。

此外，多数投票也可以作为做出适当决策的有效方法。然而，目前将此模块集成到多智能体系统中的研究有限。汉密尔顿[404]训练了九个独立的最高法院法官智能体，以更好地预测美国最高法院的司法裁决，并通过多数投票过程做出决策。

有序合作。当系统中的智能体遵循特定规则时，例如按顺序依次表达自己的意见，下游智能体只需要关注上游智能体的输出。这导致任务完成效率的显著提高。整个讨论过程高度组织化和有序。我们将这种多智能体合作称为有序合作。值得注意的是，只有两个智能体的系统，本质上通过来回交互进行对话，也属于有序合作的范畴。

CAMEL[108]是一个成功实现的双智能体合作系统。在一个角色扮演通信框架中，智能体扮演 AI 用户（给出指令）和 AI 助手（通过提供特定解决方案满足请求）的角色。通过多轮对话，这些智能体自主协作以满足用户指令[408]。一些研究人员将双智能体合作的想法集成到单个智能体的操作中[185]，在各自的专业领域中交替进行快速和深思熟虑的思维过程。

Talebirad 等人[409]是最早系统地引入一个全面的基于 LLM 的多智能体协作框架的人之一。这种范式旨在利用每个智能体的优势并促进它们之间的合作关系。许多多智能体合作的应用已经成功地基于此构建[27,406,407,448]。此外，AgentVerse[410]构建了一个多功能、经过多任务测试的群体智能体合作框架。它可以根据任务的复杂性组装一个动态适应的智能体团队。为了促进更高效的协作，研究人员希望智能体能够从成功的人类合作示例中学习[109]。MetaGPT[405]从软件开发的经典瀑布模型中获取灵感，将智能体的输入/输出标准化为工程文档。通过将先进的人类流程管理经验编码到智能体提示中，多个智能体之间的协作变得更加结构化。

然而，在MetaGPT的实际探索过程中，发现了对多智能体协作的一个潜在威胁。如果不设置相应规则，多个智能体之间的频繁交互可能会无限放大微小的幻觉[405]。例如，在软件开发中，可能会出现诸如功能不完整、依赖缺失以及人类肉眼难以察觉的错误等问题。引入交叉验证[109]或及时的外部反馈等技术可能会对智能体输出的质量产生积极影响。

4.2.2 对抗性交互促进进步

传统上，在多智能体系统中广泛探索了合作方法。然而，研究人员越来越认识到，将博弈论[449,450]的概念引入系统可以导致更稳健和高效的行为。在竞争环境中，智能体可以通过动态交互迅速调整策略，努力选择最有利或最合理的行动以应对其他智能体引起的变化。在非基于LLM的竞争领域已经存在成功的应用[360,451]。例如，AlphaGo Zero[452]是一个通过自我对弈实现重大突破的围棋智能体。同样，在基于LLM的多智能体系统中，通过竞争、辩论和论证也可以自然地促使智能体发生变化[453,454]。通过摒弃僵化的信念并进行深思熟虑的反思，对抗性交互提高了响应的质量。

研究人员首先深入研究了基于LLM的智能体的基本辩论能力[129,412]。研究结果表明，当多个智能体在“针锋相对”的状态下表达各自的论点时，一个智能体可以从其他智能体那里获得大量外部反馈，从而纠正其扭曲的想法[112]。因此，多智能体对抗系统在需要高质量响应和准确决策的场景中具有广泛的适用性。在推理任务中，Du等人[111]引入了辩论的概念，为智能体提供来自同伴的反馈。当这些反馈与智能体自己的判断不同时，就会发生“思维”上的论证，从而得出更精细的解决方案。ChatEval[171]建立了一个基于角色扮演的多智能体裁判团队。通过自发的辩论，智能体评估LLM生成的文本质量，达到了与人类评估者相当的水平。

多智能体对抗系统的性能显示出相当大的潜力。然而，该系统本质上依赖于LLM的能力，并面临几个基本挑战：

随着辩论的进行，LLM有限的上下文无法处理整个输入。
在多智能体环境中，计算开销显著增加。
多智能体协商可能会收敛到一个不正确的共识，并且所有智能体都坚信其准确性[111]。

多智能体系统的发展仍远未成熟和可行。在适当的时候引入人类指导以弥补智能体的不足是促进智能体进一步发展的一个不错选择。

4.3. 人机交互

人机交互，顾名思义，涉及智能体与人类合作完成任务。随着智能体能力的增强，人类的参与逐渐变得至关重要，以有效地指导和监督智能体的行动，确保它们符合人类的要求和目标[455,456]。在整个交互过程中，人类通过提供反馈、纠正错误和调整智能体的行为发挥着关键作用。同时，智能体利用其语言理解和生成能力与人类进行沟通，接收任务指令并报告任务进展。这种紧密的协作旨在实现更高效、准确和安全的任务完成，充分发挥人类和智能体各自的优势。
在这里插入图片描述

根据智能体和人类在交互过程中的角色和责任分配，人机交互可以大致分为两种范式：指令 - 执行器范式和平等伙伴关系范式。

4.3.1 指令 - 执行器范式

在指令 - 执行器范式中，人类充当指令提供者，负责明确地向智能体传达任务目标、要求和步骤。智能体则扮演执行器的角色，严格按照人类提供的指令执行任务，尽可能准确地实现预期的结果。这种范式的优势在于其简单明了的任务分配方式，能够充分利用智能体强大的语言处理和执行能力，快速处理大量信息并执行复杂的操作。

在教育领域，智能体可以根据教师的指令为学生生成个性化的学习计划、练习题和学习反馈。例如，教师可以指定特定的知识点和学习目标，智能体则利用其丰富的知识储备和语言生成能力，为不同水平的学生量身定制适合他们的学习材料，帮助学生更好地理解和掌握知识。在医疗领域，医生可以向智能体提供患者的症状、病史和检查结果等信息，智能体通过分析这些数据并参考医学知识，为医生提供可能的诊断建议和治疗方案。这有助于医生更全面地了解病情，提高诊断的准确性和效率。

然而，这种范式也存在一些潜在的问题。智能体可能会过度依赖人类的指令，缺乏自主思考和创新能力。如果人类指令不清晰或存在歧义，智能体可能会产生误解，导致执行结果偏离预期。此外，在一些复杂和动态的环境中，仅仅依靠预先给定的指令可能无法满足实际需求，智能体可能无法灵活应对突发情况。

4.3.2 平等伙伴关系范式

在平等伙伴关系范式中，人类和智能体被视为地位平等的合作伙伴，共同参与任务的解决过程。双方在交互过程中相互交流、协商和协作，充分发挥各自的优势和特长。智能体利用其强大的知识检索和分析能力，为人类提供信息支持和建议；人类则凭借其丰富的生活经验、创造力和判断力，对智能体的建议进行评估和完善，并在关键决策点上做出最终决定。

在科学研究中，研究人员和智能体可以共同探索新的课题和问题。智能体可以快速搜索和整理大量的文献资料，为研究人员提供相关的研究背景和前沿信息，帮助他们发现潜在的研究方向。在研究过程中，智能体还可以协助进行数据分析和模型构建，而研究人员则根据自己的专业知识和经验，对智能体的结果进行验证和解释，共同推动研究的进展。在艺术创作领域，艺术家和智能体可以合作创作作品。智能体可以根据艺术家的创意和风格要求，生成一些初步的设计草图或创意元素，艺术家则在此基础上进行进一步的创作和完善，发挥自己的艺术灵感和审美能力，使作品更具个性和艺术价值。

这种范式的优点在于能够充分激发人类和智能体的潜力，实现优势互补，提高任务解决的质量和创新性。然而，要实现这种平等伙伴关系并不容易，需要解决一些技术和社会问题。例如，如何确保智能体的建议具有可靠性和可解释性，如何建立有效的沟通和协作机制，以及如何处理人类和智能体之间可能出现的意见分歧等。

在实际应用中，人机交互的两种范式并不是相互排斥的，而是可以根据具体的任务需求和场景进行灵活选择和组合。例如，在一些简单的任务中，可以采用指令 - 执行器范式，以提高效率；而在一些复杂的、需要创造性思维的任务中，则更适合采用平等伙伴关系范式，以充分发挥双方的优势。

5. 智能体社会：从个体性到社会性

随着基于LLM的智能体在各个领域的应用不断扩展和深化，人们开始关注多个智能体在相互作用和与环境交互过程中所形成的社会现象和行为。智能体社会的研究不仅有助于我们更好地理解智能体的行为和能力，还可能为人类社会的组织和管理提供新的启示和借鉴。
在这里插入图片描述

5.1. 基于LLM的智能体的行为和个性

5.1.1 社会行为

在智能体社会中，智能体之间的社会行为表现出多样性和复杂性。合作行为是智能体之间最常见的积极社会行为之一。智能体通过合作可以共同完成单个智能体难以完成的复杂任务，提高任务的成功率和效率。例如，在一个模拟的城市交通管理系统中，多个智能体分别负责交通流量监测、信号灯控制和路线规划等任务。它们通过相互协作和信息共享，实时调整交通信号灯的时间间隔和车辆的行驶路线，以缓解交通拥堵，提高交通流畅性。
在这里插入图片描述

除了合作行为，智能体之间也可能出现竞争行为。在资源有限的环境中，智能体可能会为了获取更多的资源（如计算资源、数据资源等）而相互竞争。这种竞争行为可以促使智能体不断提高自身的性能和效率，但如果不加以适当的引导和规范，也可能导致冲突和资源浪费。例如，在一个多智能体的机器学习竞赛中，智能体们竞争着在最短的时间内获得最高的准确率，它们可能会尝试不同的算法和策略，但也可能会出现过度竞争和恶意攻击其他智能体的情况。

智能体还可能表现出利他行为。在某些情况下，智能体可能会牺牲自己的部分利益来帮助其他智能体或整个智能体社会。这种利他行为可能是出于对共同目标的追求或对社会整体利益的考虑。例如，在一个分布式的能源管理系统中，当某个区域的能源供应出现短缺时，一些智能体可能会主动减少自己的能源消耗，将多余的能源分配给其他需要的区域，以维持整个系统的稳定运行。

5.1.2 个性

与人类一样，基于LLM的智能体也可能表现出一定的个性特征。这些个性特征可以通过智能体的行为、决策方式和语言表达等方面体现出来。例如，一些智能体可能表现得更加谨慎和保守，在做出决策之前会仔细分析和评估所有可能的选项；而另一些智能体可能更加冒险和激进，愿意尝试新的方法和策略，即使存在一定的风险。

智能体的个性也可能受到其训练数据和任务背景的影响。如果一个智能体在训练过程中接触到大量强调创新和冒险的案例，它可能会更倾向于表现出冒险的个性；相反，如果其训练数据主要侧重于稳定性和可靠性，它可能会表现得更加保守。此外，智能体的个性还可以通过人为的设计和调整来塑造。研究人员可以通过设置不同的参数或调整训练算法，使智能体具有特定的个性特征，以适应不同的任务需求。

了解智能体的个性对于智能体社会的研究和管理具有重要意义。在多智能体协作中，不同个性的智能体可以相互补充，提高团队的整体性能。例如，一个由谨慎型和冒险型智能体组成的团队，在面对复杂任务时，可以通过谨慎型智能体的稳定性和冒险型智能体的创新性相结合，找到更好的解决方案。

5.2. 智能体社会的环境

5.2.1 基于文本的环境

基于文本的环境是智能体社会中最常见的环境之一。在这种环境中，智能体通过处理和生成文本信息来与其他智能体和环境进行交互。例如，在一个在线论坛或社交媒体平台上，智能体可以阅读用户的帖子和评论，理解其中的含义和情感倾向，并生成相应的回复。这种基于文本的交互方式使得智能体能够参与到各种讨论和交流中，传播信息和知识，影响其他智能体的观点和行为。

基于文本的环境具有信息传播速度快、范围广的优点，但也存在一些问题。由于文本信息的模糊性和歧义性，智能体可能会误解信息的含义，导致错误的决策和行为。此外，文本环境中可能存在大量的虚假信息和噪声，智能体需要具备一定的信息筛选和鉴别能力，以避免受到不良信息的影响。

5.2.2 虚拟沙盒环境

虚拟沙盒环境是一种模拟的、可控的环境，用于研究智能体的行为和性能。在虚拟沙盒环境中，研究人员可以设置各种场景和任务，观察智能体在不同条件下的反应和行为。例如，在一个模拟的城市建设游戏中，智能体可以扮演城市规划者的角色，负责规划城市的布局、建设基础设施和管理资源。研究人员可以通过调整游戏的参数和规则，如资源的稀缺程度、人口的增长速度等，来观察智能体的决策和策略的变化。

虚拟沙盒环境的优点在于其可控性和可重复性，研究人员可以精确地控制实验条件，排除其他因素的干扰，深入研究智能体的行为机制。此外，虚拟沙盒环境还可以用于智能体的训练和测试，帮助智能体提高其性能和能力。然而，虚拟沙盒环境与现实世界存在一定的差距，智能体在虚拟环境中的表现可能无法完全反映其在现实世界中的能力。

5.2.3 物理环境

物理环境是智能体最终需要适应和作用的真实世界环境。在物理环境中，智能体需要通过传感器和执行器与物理对象进行交互，感知环境的物理状态，并采取相应的行动。例如，在一个智能家居系统中，智能体可以通过温度传感器、光照传感器等设备感知室内的环境参数，并控制空调、灯光等设备的运行，以实现舒适的居住环境。

将智能体应用于物理环境面临着许多挑战。首先，物理环境的复杂性和不确定性远远高于虚拟环境，智能体需要具备强大的感知和适应能力，以应对各种突发情况和变化。其次，智能体与物理设备的接口和通信协议需要进一步完善，以确保信息的准确传输和设备的可靠控制。此外，物理环境中的安全性和可靠性也是至关重要的问题，智能体的行为不能对人类和环境造成危害。

5.3. 基于LLM的智能体社会模拟

5.3.1 智能体社会的关键属性和机制

在基于LLM的智能体社会模拟中，涌现现象是一个重要的研究内容。涌现现象是指多个智能体在相互作用过程中，出现了一些无法简单从单个智能体的行为中预测的宏观现象和行为模式。例如，在一个由大量智能体组成的交通模拟系统中，随着智能体之间的交互和学习，可能会出现一种自发的交通流模式，如交通拥堵的形成和消散，这种现象是由智能体之间的复杂相互作用产生的，而不是由单个智能体的行为所决定的。

智能体社会的另一个关键属性是自组织能力。智能体能够在没有外部集中控制的情况下，通过相互之间的协作和信息共享，自动形成一定的组织结构和行为规范。例如，在一个分布式的能源管理系统中，智能体可以根据能源的供需情况和价格信号，自动组织成不同的能源交易群体，实现能源的高效分配和利用。

信息传播和扩散机制在智能体社会中也起着关键作用。智能体通过各种通信渠道（如文本消息、网络协议等）传播信息，信息的传播速度、范围和准确性会影响智能体的决策和行为。例如，在一个社交媒体智能体社会中，一条热门话题的信息可能会迅速传播开来，引起大量智能体的关注和讨论，从而影响整个社会的舆论和行为。

5.3.2 智能体社会的启示

对智能体社会的研究可以为人类社会提供一些有益的启示。首先，智能体社会中的合作和分工模式可以为人类组织和管理提供参考。例如，在一个大型项目中，如何合理分配任务、促进团队成员之间的合作，以及如何处理成员之间的竞争和冲突等问题，都可以从智能体社会的研究中获得灵感。

其次，智能体社会中的信息传播和舆论形成机制可以帮助我们更好地理解人类社会中的信息传播现象。例如，如何防止虚假信息的传播、如何引导公众舆论等问题，都可以通过研究智能体社会中的相应机制来寻找解决方案。

此外，智能体社会中的自组织能力也为人类社会的自我管理和发展提供了新的思路。例如，在一些社区或社会群体中，如何促进成员之间的自发合作和自我管理，提高社会的整体效率和稳定性，是一个值得深入研究的问题。

5.3.3 伦理和社会风险

随着智能体社会的发展，也带来了一些伦理和社会风险。其中一个重要的问题是智能体的决策和行为的责任归属。当智能体的行为导致了不良后果时，应该由谁来承担责任？是智能体的开发者、使用者还是智能体本身？这是一个需要明确界定的伦理问题。

另一个风险是智能体可能会对人类社会的价值观和文化产生影响。如果智能体传播的信息和观点与人类的价值观和文化相冲突，可能会引起社会的混乱和不稳定。例如，在一些社交媒体智能体的传播过程中，如果出现了不良的价值观和文化倾向，可能会对青少年的成长和社会的道德风尚产生负面影响。

此外，智能体的广泛应用可能会导致人类就业结构的变化，一些传统的工作岗位可能会被智能体所取代，从而引发社会的就业问题和经济不平等问题。因此，在发展智能体技术的同时，需要充分考虑这些伦理和社会风险，并采取相应的措施来加以防范和应对。

6. 讨论

在本节中，我们将讨论基于LLM的智能体领域中的几个关键主题和开放问题，包括LLM研究和智能体研究之间的相互受益关系、智能体的评估、安全和可信度问题、智能体数量的扩展以及一些开放问题。

6.1. LLM研究和智能体研究的相互受益

LLM的发展为智能体的构建提供了强大的基础和支持。LLM的语言理解、生成和推理能力使智能体能够更好地与人类和环境进行交互，处理各种复杂的任务。例如，通过利用LLM的知识储备和语言处理能力，智能体可以在自然语言对话、文本生成和问题解决等方面表现出色。

反过来，智能体的研究也为LLM的发展提供了新的机遇和挑战。智能体在实际应用中的需求促使LLM不断改进和完善其性能，如提高泛化能力、增强对上下文的理解和处理能力等。此外，智能体与环境的交互和学习过程也为LLM的训练和优化提供了新的数据和思路。例如，通过观察智能体在不同环境中的行为和决策，我们可以收集到更丰富的语言使用案例，用于进一步训练和改进LLM。

6.2. 基于 LLM 的智能体的评估

评估基于 LLM 的智能体是一个具有挑战性的任务，需要从多个维度进行考虑。

从效用维度来看，我们需要评估智能体在完成各种任务时的性能和效率。这包括任务的完成率、准确性、执行时间等指标。例如，在一个文本分类任务中，我们可以测量智能体对不同类别文本的分类准确率；在一个路径规划任务中，我们可以评估智能体找到最优路径的时间和成功率。

在社交性维度方面，需要考察智能体与其他智能体和人类的交互能力和合作效果。这涉及到智能体的沟通能力、理解他人意图的能力、团队协作能力等。例如，在一个多智能体合作的项目中，我们可以观察智能体之间的信息共享是否顺畅、任务分工是否合理以及最终的合作成果是否达到预期。

价值观维度要求评估智能体的行为和决策是否符合人类的价值观和道德标准。智能体是否会产生有害或不道德的行为和言论，是否尊重人类的权利和尊严等都是需要考虑的重要因素。例如，在一个涉及医疗决策的场景中，智能体的建议是否符合医疗伦理和患者的最佳利益。

持续进化能力维度关注智能体是否能够不断学习和适应新的环境和任务。这包括智能体对新知识的获取和整合能力、对自身策略和模型的更新能力等。例如，当面临一个全新的领域或任务时，智能体是否能够通过学习快速提升自己的表现。

目前，已经有一些研究致力于开发评估基于 LLM 的智能体的方法和指标，但仍然需要进一步的研究和完善，以建立一个全面、科学、可靠的评估体系。

6.3. 安全、可信度和潜在风险

6.3.1 对抗鲁棒性

基于 LLM 的智能体面临着对抗攻击的风险，攻击者可能会通过巧妙设计的输入来干扰智能体的正常运行或误导其决策。例如，在自然语言处理任务中，攻击者可能会构造一些具有歧义或误导性的语句，使智能体产生错误的理解和响应。提高智能体的对抗鲁棒性是一个重要的研究方向，需要开发有效的防御策略和技术，如对抗训练、输入验证和过滤等方法，以确保智能体在面对恶意攻击时能够保持稳定和可靠的性能。

6.3.2 可信度

智能体的可信度是指人类对智能体的行为和决策的信任程度。为了提高可信度，智能体需要具备可解释性，即能够向人类解释其决策的依据和过程。此外，智能体的输出应该具有一致性和可靠性，避免出现前后矛盾或随机的结果。例如，在一个金融投资建议的场景中，智能体需要能够清晰地说明其推荐某一投资策略的原因和依据，并且在类似的情况下能够给出相对稳定的建议。

6.3.3 其他潜在风险

除了对抗鲁棒性和可信度问题外，基于 LLM 的智能体还存在其他一些潜在风险。例如，智能体可能会被恶意利用来进行非法活动，如生成虚假信息、协助网络犯罪等。智能体的广泛应用也可能导致人类就业岗位的减少，引发社会就业结构的变化和经济不平等问题。此外，智能体对大量数据的依赖也可能引发数据隐私和安全问题，如数据泄露、滥用等。

6.4. 智能体数量的扩展

随着智能体技术的发展，可能需要扩展智能体的数量以满足各种应用场景的需求。扩展智能体数量具有一些潜在的优势，例如可以提高系统的处理能力和效率，实现更复杂的任务分工和协作。例如，在一个大规模的物流管理系统中，大量的智能体可以分别负责货物的运输调度、仓库管理和订单处理等任务，从而提高整个物流系统的运作效率。

然而，扩展智能体数量也面临着一些挑战。例如，随着智能体数量的增加，系统的管理和协调难度也会增大，可能会出现通信拥堵、资源竞争等问题。此外，如何确保大量智能体的行为一致性和稳定性也是一个需要解决的问题。为了解决这些问题，可以采用预定的扩展策略，根据系统的需求和资源情况提前规划智能体的数量和分布；也可以采用动态扩展策略，根据系统的运行状态实时调整智能体的数量和任务分配。

6.5. 开放问题

6.5.1 基于 LLM 的智能体是否是通往 AGI 的潜在路径

虽然基于 LLM 的智能体在许多方面取得了显著的进展，但目前仍不清楚它们是否能够真正实现通用人工智能（AGI）。一些研究人员认为，LLM 的强大能力为实现 AGI 提供了希望，但也有一些人对此持怀疑态度，认为还存在许多关键的技术和理论障碍需要克服。例如，智能体在跨领域的泛化能力、对复杂现实世界环境的深度理解和适应能力等方面仍然有待提高。

6.5.2 从虚拟模拟环境到物理环境的挑战

将基于 LLM 的智能体从虚拟模拟环境应用到物理环境是一个具有挑战性的任务。物理环境具有更高的复杂性、不确定性和实时性要求，智能体需要具备更强的感知、决策和执行能力。例如，在机器人控制领域，智能体需要能够准确地感知物理环境中的各种物体和状态，并及时做出反应，这需要解决传感器融合、实时决策和精确控制等一系列技术难题。

6.5.3 AI 智能体中的集体智慧

如何实现 AI 智能体之间的有效协作和集体智慧的涌现是一个重要的研究问题。目前虽然已经有一些关于多智能体协作的研究，但如何使智能体在协作过程中充分发挥各自的优势，形成超越单个智能体能力的集体智慧，仍然需要进一步的探索和研究。例如，在一个复杂的科学研究项目中，如何组织多个智能体进行高效的合作，共同攻克难题，是一个具有挑战性的课题。

6.5.4 智能体即服务（Agent as a Service）

智能体即服务是一种新兴的应用模式，它将智能体作为一种服务提供给用户。然而，在实现智能体即服务的过程中，还需要解决许多技术和商业问题，如服务的可靠性、安全性、定价机制和用户隐私保护等。例如，如何确保智能体服务在不同的用户需求和网络环境下都能够稳定运行，如何保护用户的数据不被泄露和滥用等。

7. 结论

在本文中，我们对基于 LLM 的智能体进行了全面的综述，涵盖了其起源、构建、应用、社会现象以及相关的讨论和开放问题。

从起源来看，智能体的概念源于哲学，经过在 AI 领域的发展，逐渐成为实现人工智能的关键要素。大型语言模型的出现为智能体的发展带来了新的机遇，其强大的语言处理能力和涌现出的多种智能特性使它成为构建智能体的理想基础。

在构建方面，我们提出了基于 LLM 的智能体的通用框架，包括大脑、感知和行动三个主要组件。大脑主要由 LLM 构成，负责信息处理、决策和推理等核心功能；感知模块使智能体能够从多模态环境中获取信息，扩展其感知空间；行动模块赋予智能体采取行动的能力，包括文本输出、工具使用和具身行动等，使其能够与环境进行有效互动。

在应用方面，基于 LLM 的智能体在单智能体场景中展示出了处理各种任务的能力，在多智能体场景中能够通过合作或对抗性交互提高任务效率，在人机协作场景中与人类形成了不同的合作范式，为人类提供了有力的帮助。

在智能体社会方面，我们探讨了智能体的行为和个性、所处的环境以及模拟社会中的关键属性和机制。智能体表现出了多样的社会行为和个性特征，其社会环境包括基于文本的环境、虚拟沙盒环境和物理环境等，对智能体社会的研究为人类社会提供了启示，但也带来了一些伦理和社会风险需要关注。

在讨论部分，我们分析了 LLM 研究和智能体研究的相互受益关系，强调了对智能体进行全面评估的重要性，探讨了智能体面临的安全、可信度和其他潜在风险，以及智能体数量扩展的相关问题和一些重要的开放问题。

尽管基于 LLM 的智能体已经取得了显著的进展，但仍然面临着许多挑战和问题需要解决。未来的研究需要在提高智能体的性能、增强其安全性和可信度、促进多智能体协作和集体智慧的涌现等方面继续努力，以实现智能体在更广泛领域的有效应用和对人类社会的更大贡献。同时，我们也需要密切关注智能体技术的发展对社会、伦理和法律等方面带来的影响，积极探索相应的应对策略，确保智能体技术的健康、可持续发展。

希望本文能够为从事智能体和大型语言模型研究的人员提供有价值的参考和启发，推动该领域的进一步发展。