论文阅读——The Rise and Potential of Large Language ModelBased Agents: A Survey

最新推荐文章于 2025-01-28 00:50:47 发布

I have a lemon

最新推荐文章于 2025-01-28 00:50:47 发布

阅读量820

点赞数 5

分类专栏：人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/m0_37483148/article/details/140790449

版权

摘要
长期以来，人类一直在追求达到或超越人类水平的人工智能（AI），AI智能体被认为是实现这一目标的有希望的载体。AI智能体是能够感知其环境、做出决策并采取行动的人工实体。为了开发智能体，已经做出了许多努力，但主要集中在通过算法或训练策略的进步来增强特定能力或特定任务的性能上。实际上，社区缺少的是一个通用且强大的模型，作为设计能够适应多样化场景的AI智能体的起点。由于它们展示出的多功能能力，大型语言模型（LLMs）被视为人工通用智能（AGI）的潜在火花，为构建通用AI智能体提供了希望。许多研究人员已经利用LLMs作为基础来构建AI智能体，并取得了显著进展。在本文中，我们对基于LLM的智能体进行了全面的综述。我们首先从哲学起源追溯智能体的概念，到其在AI中的发展，并解释为什么LLMs适合作为智能体的基础。在此基础上，我们提出了一个通用的基于LLM的智能体框架，包括三个主要组成部分：大脑、感知和行动，该框架可以根据不同应用进行定制。随后，我们探讨了基于LLM的智能体在三个方面的广泛应用：单智能体场景、多智能体场景和人-智能体合作。接着，我们深入探讨了智能体社会，探索了基于LLM的智能体的行为和个性，以及从智能体社会中出现的社交现象，以及它们为人类社会提供的洞见。最后，我们讨论了该领域内的一些关键话题和开放问题。相关论文的资料库可在https://github.com/WooooDyy/LLM-Agent-Paper-List上找到。

1 引言
“如果他们找到一个能回答一切问题的鹦鹉，我会毫不犹豫地宣称它是一个智能生命。” ——丹尼斯·狄德罗，1875年

人工智能（AI）是一个致力于设计和开发能够复制类似人类智能和能力的系统的领域。早在18世纪，哲学家丹尼斯·狄德罗就提出了一个观点，如果一个鹦鹉能够回答每个问题，它就可以被认为是智能的[2]。虽然狄德罗指的是像鹦鹉这样的生物，但他的观点突出了一个深刻的概念，即一个高度智能的有机体可以类似于人类智能。在20世纪50年代，艾伦·图灵将这一概念扩展到人工实体，并提出了著名的图灵测试[3]。这个测试是AI的基石，旨在探索机器是否能够展示与人类相当的智能行为。这些AI实体通常被称为“智能体”，构成了AI系统的基本构建块。在AI中，智能体通常指的是能够使用传感器感知其周围环境、做出决策并使用执行器采取行动的人工实体[1; 4]。

智能体的概念起源于哲学，其根源可以追溯到亚里士多德和休谟等思想家[5]。它描述了具有欲望、信仰、意图和采取行动能力的实体[5]。这个想法转变为计算机科学，目的是使计算机能够理解用户的兴趣并代表他们自主执行行动[6; 7; 8]。随着AI的发展，“智能体”一词在AI研究中找到了它的位置，用以描述展示智能行为并具有自主性、反应性、主动性和社交能力的实体[4; 9]。从那时起，智能体的探索和技术进步已成为AI社区的焦点[1; 10]。AI智能体现在被认为是实现人工通用智能（AGI）[1; 11; 12]的关键一步，因为它们包含了广泛的智能活动潜力[4; 11; 12]。

从20世纪中叶开始，研究人员深入研究智能AI智能体的设计和进步，取得了显著进展[13; 14; 15; 16; 17; 18]。然而，这些努力主要集中在增强特定能力，如符号推理，或掌握特定任务，如围棋或国际象棋[19; 20; 21]。实现在不同场景中的广泛适应性仍然是难以捉摸的。此外，以前的研究更多地强调算法和训练策略的设计，忽视了模型的固有一般能力，如知识记忆、长期规划、有效泛化和高效交互[22; 23]。实际上，增强模型的固有能力是推进智能体发展的关键因素，该领域需要一个强大的基础模型，具备上述提到的关键属性，作为智能体系统的起点。

大型语言模型（LLMs）的发展为智能体的进一步发展带来了一线希望[24; 25; 26]，社区已经取得了显著进展[22; 27; 28; 29]。根据世界范围（WS）的概念[30]，它包括从NLP到通用AI的五个级别（语料库、互联网、感知、具体化和社会），纯LLMs是建立在第二级别的，具有互联网规模的文本输入和输出。尽管如此，LLMs在知识获取、指令理解、泛化、规划和推理方面展示了强大的能力，同时与人类进行了有效的自然语言交互。这些优势使LLMs被称为AGI的火花[31]，使它们成为构建智能体以促进人类和智能体和谐共存的世界的高需求[22]。从这个角度出发，如果我们将LLMs提升到智能体的地位，并为它们配备扩大的感知空间和行动空间，它们就有潜力达到WS的第三和第四级别。此外，这些基于LLM的智能体可以通过合作或竞争解决更复杂的任务，当它们一起放置时，可以观察到出现的社会现象，可能实现WS的第五级别。如图1所示，我们设想了一个由AI智能体组成的和谐社会，人类也可以参与其中。

在本文中，我们提供了一个全面和系统的综述，重点关注基于LLM的智能体，试图调查这个新兴领域的现有研究和未来前景。为此，我们首先深入研究关键背景信息（§ 2）。特别是，我们首先从哲学到AI领域的AI智能体的起源，以及围绕人工智能体存在的辩论（§ 2.1）。接下来，我们通过技术趋势的视角提供AI智能体发展的历史回顾（§ 2.2）。最后，我们深入介绍智能体的基本特征，并阐明为什么大型语言模型非常适合作为智能体大脑或控制器的主要组成部分（§ 2.3）。

受智能体定义的启发，我们为基于LLM的智能体提出了一个通用的概念框架，包括三个关键部分：大脑、感知和行动（§ 3），该框架可以根据不同应用进行定制。我们首先介绍大脑，它主要由大型语言模型组成（§ 3.1）。与人类类似，大脑是AI智能体的核心，因为它不仅存储关键的记忆、信息和知识，还承担信息处理、决策、推理和规划等重要任务。它是智能体能否展示智能行为的关键决定因素。接下来，我们介绍感知模块（§ 3.2）。对于智能体来说，这个模块的作用类似于人类的感官器官。其主要功能是将智能体的感知空间从仅限文本扩展到包括文本、声音、视觉、触觉、嗅觉等多样化感官模式的多模态空间。这种扩展使智能体能够更有效地感知来自外部环境的信息。最后，我们介绍行动模块，用于扩大智能体的行动空间（§ 3.3）。具体来说，我们希望智能体能够拥有文本输出、采取具体行动和使用工具，以便它能够更好地应对环境变化并提供反馈，甚至改变和塑造环境。

在这部分，我们提供了对基于LLM的智能体实际应用的详细和全面的介绍，并阐明了基础设计追求——“利用AI为好”（§ 4）。首先，我们深入探讨了单个智能体的当前应用，并讨论了它们在基于文本的任务和模拟探索环境中的表现，突出了它们在处理特定任务、推动创新以及展示类似人类的生存技能和适应能力方面的能力（§ 4.1）。接着，我们回顾了多智能体的发展历史。我们介绍了基于LLM的多智能体系统应用中智能体之间的交互，它们参与合作、谈判或竞争。无论交互模式如何，智能体都共同为实现共享目标而努力（§ 4.2）。最后，考虑到基于LLM的智能体在隐私安全、道德约束和数据缺陷等方面的潜在局限性，我们讨论了人-智能体协作。我们总结了智能体和人类合作的范式：指导员-执行者范式和平等伙伴关系范式，以及实践中的具体应用（§ 4.3）。

在基于LLM的智能体的实际应用探索基础上，我们现在将注意力转向“智能体社会”的概念，检查智能体与周围环境之间的复杂交互（§ 5）。这一部分首先调查这些智能体是否表现出类似人类的行为并拥有相应的个性（§5.1）。此外，我们介绍了智能体运作的社会环境，包括基于文本的环境、虚拟沙盒和物理世界（§5.2）。与前一节（§ 3.2）不同，这里我们将专注于多样化的环境类型，而不仅仅是智能体如何感知它。在为智能体及其环境奠定基础之后，我们继续揭示它们形成的模拟社会（§5.3）。我们将讨论模拟社会的构建，并继续检查从其中出现的社交现象。具体来说，我们将强调模拟社会中固有的教训和潜在风险。

最后，我们讨论了一系列关键主题（§ 6）和LLM基础智能体领域内的开放问题：（1）LLM研究和智能体研究之间的相互利益和启发，我们展示了基于LLM的智能体的发展为两个社区提供了许多机会（§ 6.1）；（2）LLM基础智能体的现有评估工作和从四个维度（实用性、社交性、价值观和持续进化能力）对它们的一些展望（§ 6.2）；（3）LLM基础智能体的潜在风险，我们讨论了LLM基础智能体的对抗性鲁棒性和可信任性。我们还包括了对其他风险的讨论，如滥用、失业和对人类福祉的威胁（§ 6.3）；（4）扩大智能体数量，我们讨论了扩大智能体数量的潜在优势和挑战，以及预定和动态扩展的方法（§ 6.4）；（5）一些开放问题，如LLM基础智能体是否代表通往AGI的潜在路径，从虚拟模拟环境到物理环境的挑战，AI智能体中的集体智能，以及智能体作为服务（§ 6.5）。最后，我们希望本文能够为相关领域的研究人员和实践者提供灵感。

2 背景
在本节中，我们提供关键的背景信息，为后续内容（§ 2.1）奠定基础。我们首先讨论AI智能体的起源，从哲学到AI领域，并讨论有关人造智能体存在的讨论（§ 2.2）。接着，我们通过技术趋势的视角总结AI智能体的发展。最后，我们介绍智能体的关键特征，并阐明为什么LLMs适合作为AI智能体大脑的主要部分（§ 2.3）。

2.1 AI智能体的起源
“智能体”是一个历史悠久的概念，在许多领域都进行了探索和解释。在这里，我们首先探索它在哲学中的起源，讨论人造产品在哲学意义上是否具有代理能力，并检查相关概念如何被引入AI领域。

哲学中的智能体。智能体的核心思想在哲学讨论中有着悠久的历史背景，可以追溯到亚里士多德和休谟等有影响力的思想家[5]。一般来说，“智能体”是一个有能力行动的实体，而“代理”表示这种能力的行使或表现[5]。在狭义上，“代理”通常用来指执行有意图的行动；相应地，“智能体”表示具有欲望、信仰、意图和行动能力的实体[32; 33; 34; 35]。请注意，智能体不仅包括个人人类，还包括物理和虚拟世界中的其他实体。重要的是，智能体的概念涉及个体自主性，赋予他们行使意志、做出选择和采取行动的能力，而不是被动地对外部刺激做出反应。

从哲学的角度来看，人造实体是否能够具有代理能力？一般来说，如果我们将智能体定义为有能力行动的实体，AI系统确实表现出某种形式的代理[5]。然而，智能体这个术语通常用来指具有意识、意图和行动能力的实体或主体[32; 33; 34]。在这个框架内，目前尚不清楚人造系统是否具有代理能力，因为它们是否具有构成归因欲望、信仰和意图的基础内部状态还不确定。一些人认为，将意图等心理状态归因于人造智能体是一种拟人化形式，缺乏科学严谨性[5; 36]。正如Barandiaran等人[36]所说，“具体说明代理的要求告诉我们，对于发展人造形式的代理还需要多少。”相比之下，也有一些研究人员认为，在某些情况下，采用意向立场（即用意图来解释智能体的行为）可以更好地描述、解释和抽象人造智能体的行为，就像对人类所做的那样[11; 37; 38]。

随着语言模型的发展，人造意向智能体的潜在出现显得更加有希望[24; 25; 39; 40; 41]。严格来说，语言模型仅仅是条件概率模型，使用输入来预测下一个标记[42]。与此不同，人类结合社会和感知背景，并根据他们的心理状态进行交流[43; 44]。因此，一些研究人员认为，当前的语言模型范式与智能体的意向行为不兼容[30; 45]。然而，也有一些研究人员提出，语言模型可以在狭义上作为智能体的模型[46; 47]。他们认为，在基于上下文的下一个词预测过程中，当前的语言模型有时可以推断出智能体所持有的信念、欲望和意图的近似、部分表示。有了这些表示，语言模型就可以像人类一样生成话语。为了支持他们的观点，他们进行了实验，提供了一些经验证据[46; 48; 49]。

智能体引入AI。令人惊讶的是，直到20世纪中后期，主流AI社区的研究人员对与智能体相关的概念投入了相对较少的关注。然而，从那时起，在计算机科学和人工智能社区中对这个话题的兴趣有了显著的增长[50; 51; 52; 53]。正如Wooldridge等人[4]所说，我们可以通过说AI是计算机科学的一个子领域来定义AI，它旨在设计和构建表现出智能行为方面的计算机基础智能体。因此，我们可以将“智能体”视为AI的核心概念。当智能体的概念被引入AI领域时，它的含义经历了一些变化。在哲学领域，智能体可以是人、动物，甚至是具有自主性的概念或实体[5]。然而，在人工智能领域，智能体是一个计算实体[4; 7]。由于像意识和欲望这样的概念对于计算实体来说似乎是形而上学的[11]，并且我们只能观察到机器的行为，包括艾伦·图灵在内的许多AI研究人员建议暂时搁置智能体是否真的“在思考”或真正拥有“心智”的问题[3]。相反，研究人员采用其他属性来帮助描述智能体，如自主性、反应性、主动性和社交能力[4; 9]。还有一些研究人员认为，智能是“观察者的视角”；它不是一个固有的、孤立的属性[15; 16; 54; 55]。本质上，AI智能体并不等同于哲学智能体；而是在AI背景下对哲学智能体概念的具体化。在本文中，我们将AI智能体视为能够使用传感器感知周围环境、做出决策，然后使用执行器采取行动的人工实体[1; 4]。

2.2 智能体研究中的技术趋势
智能体的演变经历了几个阶段，这里我们从技术趋势的角度简要回顾其发展。

符号智能体。在人工智能研究的早期阶段，主要采用的是符号AI，其特点是依赖于符号逻辑[56; 57]。这种方法使用逻辑规则和符号表示来封装知识并促进推理过程。早期的AI智能体就是基于这种方法构建的[58]，它们主要关注两个问题：转导问题和表示/推理问题[59]。这些智能体旨在模仿人类的思维方式。它们拥有明确且可解释的推理框架，由于其符号性质，它们表现出高度的表达能力[13; 14; 60]。这种方法的一个经典例子是知识型专家系统。然而，符号智能体在处理不确定性和大规模现实世界问题方面存在局限性[19; 20]。此外，由于符号推理算法的复杂性，很难找到一个能够在有限时间内产生有意义结果的高效算法[20; 61]。

反应式智能体。与符号智能体不同，反应式智能体不使用复杂的符号推理。相反，它们主要关注智能体

反应式智能体不使用复杂的符号推理。相反，它们主要关注智能体与其环境之间的交互，强调快速和实时响应[15; 16; 20; 62; 63]。这些智能体主要基于感知-行动循环，高效地感知并响应环境。这类智能体的设计优先考虑直接的输入-输出映射，而不是复杂的推理和符号操作[52]。然而，反应式智能体也有局限性。它们通常需要较少的计算资源，能够实现更快的响应，但可能缺乏复杂的高层次决策和规划能力。

基于强化学习的智能体。随着计算能力和数据可用性的提高，以及对智能体与环境之间交互模拟的日益增长的兴趣，研究人员开始利用强化学习方法来训练智能体，以解决更具挑战性和复杂性的任务[17; 18; 64; 65]。这个领域的主要关注点是如何使智能体通过与环境的交互学习，使它们在特定任务中实现最大累积奖励[21]。最初，强化学习（RL）智能体主要基于基本技术，如策略搜索和价值函数优化，例如Q学习[66]和SARSA[67]。随着深度学习的兴起，深度神经网络与强化学习的结合，即深度强化学习（DRL）出现了[68; 69]。这使得智能体能够从高维输入中学习复杂的策略，取得了诸如AlphaGo[70]和DQN[71]等一系列重要成就。这种方法的优势在于它能够使智能体在未知环境中自主学习，无需明确的人为干预。这使得它在从游戏到机器人控制等多个领域都有广泛的应用。然而，强化学习面临着包括长时间的训练、低样本效率和稳定性问题等挑战，特别是当应用于复杂的现实世界环境时[21]。

具有迁移学习和元学习的智能体。传统上，训练一个强化学习智能体需要大量的样本和长时间的训练，并且缺乏泛化能力[72; 73; 74; 75; 76]。因此，研究人员引入了迁移学习来加速智能体在新任务上的学习[77; 78; 79]。迁移学习减少了在新任务上训练的负担，促进了不同任务之间知识共享和迁移，从而提高了学习效率、性能和泛化能力。此外，元学习也被引入到AI智能体中[80; 81; 82; 83; 84]。元学习专注于学习如何学习，使智能体能够从少量样本中迅速推断出新任务的最佳策略[85]。这样的智能体在面对新任务时，可以通过利用获得的一般知识和策略，快速调整其学习方法，从而减少对大量样本的依赖。然而，当源任务和目标任务之间存在显著差异时，迁移学习的有效性可能达不到预期，并且可能存在负迁移[86; 87]。此外，元学习所需的大量预训练和大样本量使其难以建立通用的学习策略[81; 88]。

基于大型语言模型的智能体。由于大型语言模型展示了令人印象深刻的新兴能力并且获得了巨大的流行度[24; 25; 26; 41]，研究人员开始利用这些模型构建AI智能体[22; 27; 28; 89]。具体来说，他们将LLMs作为智能体大脑或控制器的主要组成部分，并通过多模态感知和工具使用等策略扩展它们的感知和行动空间[90; 91; 92; 93; 94]。这些基于LLM的智能体可以通过链式思维（CoT）和问题分解等技术展示出与符号智能体相媲美的推理和规划能力[95; 96; 97; 98; 99; 100; 101]。它们也可以通过从反馈中学习并执行新动作，获得与环境交互的能力，类似于反应式智能体[102; 103; 104]。同样，大型语言模型在大规模语料库上进行预训练，并展示出少次学习和零次泛化的能力，允许在任务之间无缝转移，无需更新参数[41; 105; 106; 107]。基于LLM的智能体已被应用于各种现实世界场景，如软件开发[108; 109]和科学研究[110]。由于它们对自然语言的理解和生成能力，它们可以无缝地相互交互，产生多个智能体之间的合作和竞争[108; 109; 111; 112]。此外，研究表明，允许多个智能体共存可以导致社会现象的出现[22]。

2.3 为什么LLM适合作为智能体大脑的主要组成部分？

如前所述，研究人员引入了几个属性来帮助描述和定义AI领域的智能体。在这里，我们将深入探讨一些关键属性，阐明它们与LLMs的相关性，并因此阐述为什么LLMs非常适合作为AI智能体大脑的主要部分。

自主性。自主性意味着智能体在没有人类或其他直接干预的情况下运行，并对其行动和内部状态拥有一定程度的控制[4; 113]。这意味着智能体不仅应该具备遵循明确的人类指令完成任务的能力，还应该展现出独立发起和执行行动的能力。LLMs可以通过生成类似人类的文本、参与对话以及在没有详细逐步指令的情况下执行各种任务来展示一种自主性[114; 115]。此外，它们可以根据环境输入动态调整输出，反映出一定程度的适应性自主性[23; 27; 104]。此外，它们还可以通过展示创造力来展示自主性，例如提出新颖的想法、故事或解决方案，这些并没有被明确编程到它们中[116; 117]。这暗示了一定程度的自我指导探索和决策。像Auto-GPT[114]这样的应用展示了LLMs在构建自主智能体方面的潜力。只需为它们提供任务和一组可用工具，它们就可以自主制定计划并执行它们以实现最终目标。

反应性。智能体的反应性指的是其能够快速响应环境中的即时变化和刺激[9]。这意味着智能体能够感知其周围环境的变化，并迅速采取适当的行动。传统上，语言模型的感知空间被限制在文本输入上，而行动空间被限制在文本输出上。然而，研究人员已经展示了使用多模态融合技术扩展LLMs感知空间的潜力，使它们能够快速处理来自环境的视觉和听觉信息[25; 118; 119]。同样，通过具体化技术和工具使用，也可以扩展LLMs的行动空间[120; 121]。这些进步使LLMs能够有效地与现实世界物理环境进行交互，并在其中执行任务。一个主要挑战是，当执行非文本动作时，基于LLM的智能体需要一个中间步骤，即将思想生成或工具使用制定成文本形式，然后最终将其翻译成具体行动。这个中介过程消耗时间并降低了响应速度。然而，这与人类行为模式非常接近，其中观察到“三思而后行”的原则[122; 123]。

主动性。主动性表示智能体不仅仅对环境做出反应；它们具有通过主动采取行动来展示目标导向行动的能力[9]。这种属性强调智能体可以推理、制定计划，并在其行动中采取主动措施以实现特定目标或适应环境变化。尽管直观上LLMs中的下一个标记预测范式可能没有意图或欲望，但研究表明它们可以隐式地生成这些状态的表示，并指导模型的推理过程[46; 48; 49]。LLMs展示了强大的通用推理和规划能力。通过使用“让我们一步一步地思考”等指令提示大型语言模型，我们可以激发它们的推理能力，如逻辑和数学推理[95; 96; 97]。同样，大型语言模型也显示出规划的新兴能力，形式包括目标重新表述[99; 124]、任务分解[98; 125]以及根据环境变化调整计划[100; 126]。

社交能力。社交能力指的是智能体与其他智能体（包括人类）通过某种智能体通信语言进行交互的能力[8]。大型语言模型表现出强大的自然语言交互能力，如理解和生成[23; 127; 128]。与结构化语言或其他通信协议相比，这种能力使它们能够以可解释的方式与其他模型或人类进行交互。这构成了基于LLM的智能体社交能力的基础[22; 108]。许多研究人员已经证明，基于LLM的智能体可以通过社交行为如合作和竞争来提高任务表现[108; 111; 129; 130]。通过输入特定的提示，LLMs也可以扮演不同的角色，从而模拟现实世界中的社会分工[109]。此外，当我们将具有不同身份的多个智能体置于社会中时，可以观察到出现的社会现象[22]。

3 智能体的诞生：基于LLM的智能体的构建
看天空，你认为明天会下雨吗？
如果是的话，把伞给我。
环境
感知
工具
调用API ...
具体化
文本
根据当前的天气条件和互联网上的天气预报，明天很可能会下雨。这是你的伞。
大脑
知识
记忆
存储
决策制定
规划/推理
回顾摘要检索学习
概括/转移
输入
智能体行动

图2：基于LLM的智能体的概念框架，包括三个组成部分：大脑、感知和行动。作为控制器，大脑模块承担基本任务

**大脑模块**主要负责记忆、思考和决策等基本任务。**感知模块**负责处理来自外部环境的多模态信息，而**行动模块**则利用工具执行操作并影响周围环境。这里我们给出一个示例来说明工作流程：当一个人询问是否会下雨时，感知模块将指令转换为LLMs能理解的表示形式。然后大脑模块开始根据当前天气和互联网上的天气预报进行推理。最后，行动模块作出响应，将伞交给人。通过重复上述过程，智能体可以持续获得反馈并与环境互动。

“适者生存”[131]表明，如果一个人想要在外部环境中生存，他必须有效地适应周围环境。这要求他具有认知能力，能够感知并对外部世界的变化做出反应，这与第2.1节中提到的“智能体”定义一致。受此启发，我们提出了一个由三个关键部分组成的基于LLM的智能体的通用概念框架：大脑、感知和行动（见图2）。我们首先描述大脑的结构和工作机制，它主要由一个大型语言模型组成（§ 3.1）。大脑是AI智能体的核心，因为它不仅存储知识和记忆，还承担信息处理和决策制定等不可或缺的功能。它可以呈现推理和规划过程，并能很好地应对未见任务，展示智能体的智能。接下来，我们介绍感知模块（§ 3.2）。其核心目的是将智能体的感知空间从仅文本领域扩展到包括文本、听觉和视觉模态的多模态领域。这种扩展使智能体能够更有效地掌握和利用来自其周围环境的信息。最后，我们介绍旨在扩展智能体行动空间的行动模块（§ 3.3）。具体来说，我们赋予智能体具体化行动能力和工具操作技能，使其能够熟练地适应环境变化，提供反馈，甚至影响和塑造环境。

该框架可以根据不同的应用场景进行定制，即并非所有特定组件都会在所有研究中使用。通常，智能体的操作流程如下：首先，感知模块（对应于人类的感觉系统，如眼睛和耳朵）感知外部环境的变化，然后将多模态信息转换为智能体能理解的表示。随后，大脑模块作为控制中心，参与信息处理活动，如思考、决策制定和存储操作，包括记忆和知识。最后，行动模块（对应于人类的四肢）在工具的协助下执行操作，并对周围环境产生影响。通过重复上述过程，智能体可以持续获得反馈并与环境互动。

3.1 大脑
大脑
自然语言交互 §3.1.1
高质量生成
Bang等人[132]，Fang等人[133]，Lin等人[127]，Lu等人[134]等。
深度理解
Buehler等人[135]，Lin等人[128]，Shapira等人[136]等。

知识 §3.1.2
基于LLM的智能体中的知识
预训练模型
Hill等人[137]，Collobert等人[138]，Kaplan等人[139]，Roberts等人[140]，Tandon等人[141]等。
语言知识
Vulic等人[142]，Hewitt等人[143]，Rau等人[144]，Yang等人[145]，Belocuif等人[146]，Zhang等人[147]，Bang等人[132]等。
常识知识
Safavi等人[148]，Jiang等人[149]，Madaan[150]等。
可操作知识
Xu等人[151]，Cobbe等人[152]，Thirunavukarasu等人[153]，Lai等人[154]，Madaan等人[150]等。

知识潜在问题
编辑错误和过时的知识
AlKhamissi等人[155]，Kemker等人[156]，Cao等人[157]，Yao等人[158]，Mitchell等人[159]等。
减轻幻觉
Manakul等人[160]，Qin等人[94]，Li等人[161]，Gou等人[162]等。

记忆 §3.1.3
记忆能力
提高Transformers的长度限制
BART[163]，Park等人[164]，LongT5[165]，CoLT5[166]，Ruoss等人[167]等。
记忆总结
生成性智能体[22]，SCM[168]，Reflexion[169]，Memorybank[170]，ChatEval[171]等。
使用向量或数据结构压缩记忆
ChatDev[109]，GITM[172]，RET-LLM[173]，AgentSims[174]，ChatDB[175]等。
记忆检索
自动检索
生成性智能体[22]，Memorybank[170]，AgentSims[174]等。
交互式检索
Memory Sandbox[176]，ChatDB[175]等。

推理与规划 §3.1.4
推理
CoT[95]，Zero-shot-CoT[96]，Self-Consistency[97]，SelfPolish[99]，Selection-Inference[177]，Self-Refine[178]等。
规划
计划制定
Least-to-Most[98]，SayCan[179]，HuggingGPT[180]，ToT[181]，PET[182]，DEPS[183]，RAP[184]，SwiftSage[185]，LLM+P[125]，MRKL[186]等。
计划反思
LLM-Planner[101]，Inner Monologue[187]，ReAct[91]，ChatCoT[188]，AI Chains[189]，Voyager[190]，Zhao等人[191]，SelfCheck[192]等。

可转移性与泛化 §3.1.5
未见任务泛化
T0[106]，FLAN[105]，InstructGPT[24]，Chung等人[107]等。
上下文学习
GPT-3[41]，Wang等人[193]，Wang等人[194]，Dong等人[195]等。
持续学习
Ke等人[196]，Wang等人[197]，Razdaibiedina等人[198]，Voyager[190]等。

图3：大脑模块的类型学。

人类大脑是一个复杂的结构，由大量相互连接的神经元组成，能够处理各种信息，产生多样的思想，控制不同的行为，甚至创造艺术和文化[199]。与人类类似，大脑作为AI智能体的中心核心，主要由一个大型语言模型组成。

操作机制。为确保有效沟通，进行自然语言交互的能力至关重要（§3.1.1）。接收到感知模块处理的信息后，大脑模块首先转向存储，检索知识（§3.1.2）和回忆记忆（§3