论文阅读——The Rise and Potential of Large Language ModelBased Agents: A Survey

摘要
长期以来,人类一直在追求达到或超越人类水平的人工智能(AI),AI智能体被认为是实现这一目标的有希望的载体。AI智能体是能够感知其环境、做出决策并采取行动的人工实体。为了开发智能体,已经做出了许多努力,但主要集中在通过算法或训练策略的进步来增强特定能力或特定任务的性能上。实际上,社区缺少的是一个通用且强大的模型,作为设计能够适应多样化场景的AI智能体的起点。由于它们展示出的多功能能力,大型语言模型(LLMs)被视为人工通用智能(AGI)的潜在火花,为构建通用AI智能体提供了希望。许多研究人员已经利用LLMs作为基础来构建AI智能体,并取得了显著进展。在本文中,我们对基于LLM的智能体进行了全面的综述。我们首先从哲学起源追溯智能体的概念,到其在AI中的发展,并解释为什么LLMs适合作为智能体的基础。在此基础上,我们提出了一个通用的基于LLM的智能体框架,包括三个主要组成部分:大脑、感知和行动,该框架可以根据不同应用进行定制。随后,我们探讨了基于LLM的智能体在三个方面的广泛应用:单智能体场景、多智能体场景和人-智能体合作。接着,我们深入探讨了智能体社会,探索了基于LLM的智能体的行为和个性,以及从智能体社会中出现的社交现象,以及它们为人类社会提供的洞见。最后,我们讨论了该领域内的一些关键话题和开放问题。相关论文的资料库可在https://github.com/WooooDyy/LLM-Agent-Paper-List上找到。

1 引言
“如果他们找到一个能回答一切问题的鹦鹉,我会毫不犹豫地宣称它是一个智能生命。” ——丹尼斯·狄德罗,1875年

人工智能(AI)是一个致力于设计和开发能够复制类似人类智能和能力的系统的领域。早在18世纪,哲学家丹尼斯·狄德罗就提出了一个观点,如果一个鹦鹉能够回答每个问题,它就可以被认为是智能的[2]。虽然狄德罗指的是像鹦鹉这样的生物,但他的观点突出了一个深刻的概念,即一个高度智能的有机体可以类似于人类智能。在20世纪50年代,艾伦·图灵将这一概念扩展到人工实体,并提出了著名的图灵测试[3]。这个测试是AI的基石,旨在探索机器是否能够展示与人类相当的智能行为。这些AI实体通常被称为“智能体”,构成了AI系统的基本构建块。在AI中,智能体通常指的是能够使用传感器感知其周围环境、做出决策并使用执行器采取行动的人工实体[1; 4]。

智能体的概念起源于哲学,其根源可以追溯到亚里士多德和休谟等思想家[5]。它描述了具有欲望、信仰、意图和采取行动能力的实体[5]。这个想法转变为计算机科学,目的是使计算机能够理解用户的兴趣并代表他们自主执行行动[6; 7; 8]。随着AI的发展,“智能体”一词在AI研究中找到了它的位置,用以描述展示智能行为并具有自主性、反应性、主动性和社交能力的实体[4; 9]。从那时起,智能体的探索和技术进步已成为AI社区的焦点[1; 10]。AI智能体现在被认为是实现人工通用智能(AGI)[1; 11; 12]的关键一步,因为它们包含了广泛的智能活动潜力[4; 11; 12]。

从20世纪中叶开始,研究人员深入研究智能AI智能体的设计和进步,取得了显著进展[13; 14; 15; 16; 17; 18]。然而,这些努力主要集中在增强特定能力,如符号推理,或掌握特定任务,如围棋或国际象棋[19; 20; 21]。实现在不同场景中的广泛适应性仍然是难以捉摸的。此外,以前的研究更多地强调算法和训练策略的设计,忽视了模型的固有一般能力,如知识记忆、长期规划、有效泛化和高效交互[22; 23]。实际上,增强模型的固有能力是推进智能体发展的关键因素,该领域需要一个强大的基础模型,具备上述提到的关键属性,作为智能体系统的起点。

大型语言模型(LLMs)的发展为智能体的进一步发展带来了一线希望[24; 25; 26],社区已经取得了显著进展[22; 27; 28; 29]。根据世界范围(WS)的概念[30],它包括从NLP到通用AI的五个级别(语料库、互联网、感知、具体化和社会),纯LLMs是建立在第二级别的,具有互联网规模的文本输入和输出。尽管如此,LLMs在知识获取、指令理解、泛化、规划和推理方面展示了强大的能力,同时与人类进行了有效的自然语言交互。这些优势使LLMs被称为AGI的火花[31],使它们成为构建智能体以促进人类和智能体和谐共存的世界的高需求[22]。从这个角度出发,如果我们将LLMs提升到智能体的地位,并为它们配备扩大的感知空间和行动空间,它们就有潜力达到WS的第三和第四级别。此外,这些基于LLM的智能体可以通过合作或竞争解决更复杂的任务,当它们一起放置时,可以观察到出现的社会现象,可能实现WS的第五级别。如图1所示,我们设想了一个由AI智能体组成的和谐社会,人类也可以参与其中。

在本文中,我们提供了一个全面和系统的综述,重点关注基于LLM的智能体,试图调查这个新兴领域的现有研究和未来前景。为此,我们首先深入研究关键背景信息(§ 2)。特别是,我们首先从哲学到AI领域的AI智能体的起源,以及围绕人工智能体存在的辩论(§ 2.1)。接下来,我们通过技术趋势的视角提供AI智能体发展的历史回顾(§ 2.2)。最后,我们深入介绍智能体的基本特征,并阐明为什么大型语言模型非常适合作为智能体大脑或控制器的主要组成部分(§ 2.3)。

受智能体定义的启发,我们为基于LLM的智能体提出了一个通用的概念框架,包括三个关键部分:大脑、感知和行动(§ 3),该框架可以根据不同应用进行定制。我们首先介绍大脑,它主要由大型语言模型组成(§ 3.1)。与人类类似,大脑是AI智能体的核心,因为它不仅存储关键的记忆、信息和知识,还承担信息处理、决策、推理和规划等重要任务。它是智能体能否展示智能行为的关键决定因素。接下来,我们介绍感知模块(§ 3.2)。对于智能体来说,这个模块的作用类似于人类的感官器官。其主要功能是将智能体的感知空间从仅限文本扩展到包括文本、声音、视觉、触觉、嗅觉等多样化感官模式的多模态空间。这种扩展使智能体能够更有效地感知来自外部环境的信息。最后,我们介绍行动模块,用于扩大智能体的行动空间(§ 3.3)。具体来说,我们希望智能体能够拥有文本输出、采取具体行动和使用工具,以便它能够更好地应对环境变化并提供反馈,甚至改变和塑造环境。

在这部分,我们提供了对基于LLM的智能体实际应用的详细和全面的介绍,并阐明了基础设计追求——“利用AI为好”(§ 4)。首先,我们深入探讨了单个智能体的当前应用,并讨论了它们在基于文本的任务和模拟探索环境中的表现,突出了它们在处理特定任务、推动创新以及展示类似人类的生存技能和适应能力方面的能力(§ 4.1)。接着,我们回顾了多智能体的发展历史。我们介绍了基于LLM的多智能体系统应用中智能体之间的交互,它们参与合作、谈判或竞争。无论交互模式如何,智能体都共同为实现共享目标而努力(§ 4.2)。最后,考虑到基于LLM的智能体在隐私安全、道德约束和数据缺陷等方面的潜在局限性,我们讨论了人-智能体协作。我们总结了智能体和人类合作的范式:指导员-执行者范式和平等伙伴关系范式,以及实践中的具体应用(§ 4.3)。

在基于LLM的智能体的实际应用探索基础上,我们现在将注意力转向“智能体社会”的概念,检查智能体与周围环境之间的复杂交互(§ 5)。这一部分首先调查这些智能体是否表现出类似人类的行为并拥有相应的个性(§5.1)。此外,我们介绍了智能体运作的社会环境,包括基于文本的环境、虚拟沙盒和物理世界(§5.2)。与前一节(§ 3.2)不同,这里我们将专注于多样化的环境类型,而不仅仅是智能体如何感知它。在为智能体及其环境奠定基础之后,我们继续揭示它们形成的模拟社会(§5.3)。我们将讨论模拟社会的构建,并继续检查从其中出现的社交现象。具体来说,我们将强调模拟社会中固有的教训和潜在风险。

最后,我们讨论了一系列关键主题(§ 6)和LLM基础智能体领域内的开放问题:(1)LLM研究和智能体研究之间的相互利益和启发,我们展示了基于LLM的智能体的发展为两个社区提供了许多机会(§ 6.1);(2)LLM基础智能体的现有评估工作和从四个维度(实用性、社交性、价值观和持续进化能力)对它们的一些展望(§ 6.2);(3)LLM基础智能体的潜在风险,我们讨论了LLM基础智能体的对抗性鲁棒性和可信任性。我们还包括了对其他风险的讨论,如滥用、失业和对人类福祉的威胁(§ 6.3);(4)扩大智能体数量,我们讨论了扩大智能体数量的潜在优势和挑战,以及预定和动态扩展的方法(§ 6.4);(5)一些开放问题,如LLM基础智能体是否代表通往AGI的潜在路径,从虚拟模拟环境到物理环境的挑战,AI智能体中的集体智能,以及智能体作为服务(§ 6.5)。最后,我们希望本文能够为相关领域的研究人员和实践者提供灵感。

2 背景
在本节中,我们提供关键的背景信息,为后续内容(§ 2.1)奠定基础。我们首先讨论AI智能体的起源,从哲学到AI领域,并讨论有关人造智能体存在的讨论(§ 2.2)。接着,我们通过技术趋势的视角总结AI智能体的发展。最后,我们介绍智能体的关键特征,并阐明为什么LLMs适合作为AI智能体大脑的主要部分(§ 2.3)。

2.1 AI智能体的起源
“智能体”是一个历史悠久的概念,在许多领域都进行了探索和解释。在这里,我们首先探索它在哲学中的起源,讨论人造产品在哲学意义上是否具有代理能力,并检查相关概念如何被引入AI领域。

哲学中的智能体。智能体的核心思想在哲学讨论中有着悠久的历史背景,可以追溯到亚里士多德和休谟等有影响力的思想家[5]。一般来说,“智能体”是一个有能力行动的实体,而“代理”表示这种能力的行使或表现[5]。在狭义上,“代理”通常用来指执行有意图的行动;相应地,“智能体”表示具有欲望、信仰、意图和行动能力的实体[32; 33; 34; 35]。请注意,智能体不仅包括个人人类,还包括物理和虚拟世界中的其他实体。重要的是,智能体的概念涉及个体自主性,赋予他们行使意志、做出选择和采取行动的能力,而不是被动地对外部刺激做出反应。

从哲学的角度来看,人造实体是否能够具有代理能力?一般来说,如果我们将智能体定义为有能力行动的实体,AI系统确实表现出某种形式的代理[5]。然而,智能体这个术语通常用来指具有意识、意图和行动能力的实体或主体[32; 33; 34]。在这个框架内,目前尚不清楚人造系统是否具有代理能力,因为它们是否具有构成归因欲望、信仰和意图的基础内部状态还不确定。一些人认为,将意图等心理状态归因于人造智能体是一种拟人化形式,缺乏科学严谨性[5; 36]。正如Barandiaran等人[36]所说,“具体说明代理的要求告诉我们,对于发展人造形式的代理还需要多少。”相比之下,也有一些研究人员认为,在某些情况下,采用意向立场(即用意图来解释智能体的行为)可以更好地描述、解释和抽象人造智能体的行为,就像对人类所做的那样[11; 37; 38]。

随着语言模型的发展,人造意向智能体的潜在出现显得更加有希望[24; 25; 39; 40; 41]。严格来说,语言模型仅仅是条件概率模型,使用输入来预测下一个标记[42]。与此不同,人类结合社会和感知背景,并根据他们的心理状态进行交流[43; 44]。因此,一些研究人员认为,当前的语言模型范式与智能体的意向行为不兼容[30; 45]。然而,也有一些研究人员提出,语言模型可以在狭义上作为智能体的模型[46; 47]。他们认为,在基于上下文的下一个词预测过程中,当前的语言模型有时可以推断出智能体所持有的信念、欲望和意图的近似、部分表示。有了这些表示,语言模型就可以像人类一样生成话语。为了支持他们的观点,他们进行了实验,提供了一些经验证据[46; 48; 49]。

智能体引入AI。令人惊讶的是,直到20世纪中后期,主流AI社区的研究人员对与智能体相关的概念投入了相对较少的关注。然而,从那时起,在计算机科学和人工智能社区中对这个话题的兴趣有了显著的增长[50; 51; 52; 53]。正如Wooldridge等人[4]所说,我们可以通过说AI是计算机科学的一个子领域来定义AI,它旨在设计和构建表现出智能行为方面的计算机基础智能体。因此,我们可以将“智能体”视为AI的核心概念。当智能体的概念被引入AI领域时,它的含义经历了一些变化。在哲学领域,智能体可以是人、动物,甚至是具有自主性的概念或实体[5]。然而,在人工智能领域,智能体是一个计算实体[4; 7]。由于像意识和欲望这样的概念对于计算实体来说似乎是形而上学的[11],并且我们只能观察到机器的行为,包括艾伦·图灵在内的许多AI研究人员建议暂时搁置智能体是否真的“在思考”或真正拥有“心智”的问题[3]。相反,研究人员采用其他属性来帮助描述智能体,如自主性、反应性、主动性和社交能力[4; 9]。还有一些研究人员认为,智能是“观察者的视角”;它不是一个固有的、孤立的属性[15; 16; 54; 55]。本质上,AI智能体并不等同于哲学智能体;而是在AI背景下对哲学智能体概念的具体化。在本文中,我们将AI智能体视为能够使用传感器感知周围环境、做出决策,然后使用执行器采取行动的人工实体[1; 4]。

2.2 智能体研究中的技术趋势
智能体的演变经历了几个阶段,这里我们从技术趋势的角度简要回顾其发展。

符号智能体。在人工智能研究的早期阶段,主要采用的是符号AI,其特点是依赖于符号逻辑[56; 57]。这种方法使用逻辑规则和符号表示来封装知识并促进推理过程。早期的AI智能体就是基于这种方法构建的[58],它们主要关注两个问题:转导问题和表示/推理问题[59]。这些智能体旨在模仿人类的思维方式。它们拥有明确且可解释的推理框架,由于其符号性质,它们表现出高度的表达能力[13; 14; 60]。这种方法的一个经典例子是知识型专家系统。然而,符号智能体在处理不确定性和大规模现实世界问题方面存在局限性[19; 20]。此外,由于符号推理算法的复杂性,很难找到一个能够在有限时间内产生有意义结果的高效算法[20; 61]。

反应式智能体。与符号智能体不同,反应式智能体不使用复杂的符号推理。相反,它们主要关注智能体

反应式智能体不使用复杂的符号推理。相反,它们主要关注智能体与其环境之间的交互,强调快速和实时响应[15; 16; 20; 62; 63]。这些智能体主要基于感知-行动循环,高效地感知并响应环境。这类智能体的设计优先考虑直接的输入-输出映射,而不是复杂的推理和符号操作[52]。然而,反应式智能体也有局限性。它们通常需要较少的计算资源,能够实现更快的响应,但可能缺乏复杂的高层次决策和规划能力。

基于强化学习的智能体。随着计算能力和数据可用性的提高,以及对智能体与环境之间交互模拟的日益增长的兴趣,研究人员开始利用强化学习方法来训练智能体,以解决更具挑战性和复杂性的任务[17; 18; 64; 65]。这个领域的主要关注点是如何使智能体通过与环境的交互学习,使它们在特定任务中实现最大累积奖励[21]。最初,强化学习(RL)智能体主要基于基本技术,如策略搜索和价值函数优化,例如Q学习[66]和SARSA[67]。随着深度学习的兴起,深度神经网络与强化学习的结合,即深度强化学习(DRL)出现了[68; 69]。这使得智能体能够从高维输入中学习复杂的策略,取得了诸如AlphaGo[70]和DQN[71]等一系列重要成就。这种方法的优势在于它能够使智能体在未知环境中自主学习,无需明确的人为干预。这使得它在从游戏到机器人控制等多个领域都有广泛的应用。然而,强化学习面临着包括长时间的训练、低样本效率和稳定性问题等挑战,特别是当应用于复杂的现实世界环境时[21]。

具有迁移学习和元学习的智能体。传统上,训练一个强化学习智能体需要大量的样本和长时间的训练,并且缺乏泛化能力[72; 73; 74; 75; 76]。因此,研究人员引入了迁移学习来加速智能体在新任务上的学习[77; 78; 79]。迁移学习减少了在新任务上训练的负担,促进了不同任务之间知识共享和迁移,从而提高了学习效率、性能和泛化能力。此外,元学习也被引入到AI智能体中[80; 81; 82; 83; 84]。元学习专注于学习如何学习,使智能体能够从少量样本中迅速推断出新任务的最佳策略[85]。这样的智能体在面对新任务时,可以通过利用获得的一般知识和策略,快速调整其学习方法,从而减少对大量样本的依赖。然而,当源任务和目标任务之间存在显著差异时,迁移学习的有效性可能达不到预期,并且可能存在负迁移[86; 87]。此外,元学习所需的大量预训练和大样本量使其难以建立通用的学习策略[81; 88]。

基于大型语言模型的智能体。由于大型语言模型展示了令人印象深刻的新兴能力并且获得了巨大的流行度[24; 25; 26; 41],研究人员开始利用这些模型构建AI智能体[22; 27; 28; 89]。具体来说,他们将LLMs作为智能体大脑或控制器的主要组成部分,并通过多模态感知和工具使用等策略扩展它们的感知和行动空间[90; 91; 92; 93; 94]。这些基于LLM的智能体可以通过链式思维(CoT)和问题分解等技术展示出与符号智能体相媲美的推理和规划能力[95; 96; 97; 98; 99; 100; 101]。它们也可以通过从反馈中学习并执行新动作,获得与环境交互的能力,类似于反应式智能体[102; 103; 104]。同样,大型语言模型在大规模语料库上进行预训练,并展示出少次学习和零次泛化的能力,允许在任务之间无缝转移,无需更新参数[41; 105; 106; 107]。基于LLM的智能体已被应用于各种现实世界场景,如软件开发[108; 109]和科学研究[110]。由于它们对自然语言的理解和生成能力,它们可以无缝地相互交互,产生多个智能体之间的合作和竞争[108; 109; 111; 112]。此外,研究表明,允许多个智能体共存可以导致社会现象的出现[22]。

2.3 为什么LLM适合作为智能体大脑的主要组成部分?

如前所述,研究人员引入了几个属性来帮助描述和定义AI领域的智能体。在这里,我们将深入探讨一些关键属性,阐明它们与LLMs的相关性,并因此阐述为什么LLMs非常适合作为AI智能体大脑的主要部分。

自主性。自主性意味着智能体在没有人类或其他直接干预的情况下运行,并对其行动和内部状态拥有一定程度的控制[4; 113]。这意味着智能体不仅应该具备遵循明确的人类指令完成任务的能力,还应该展现出独立发起和执行行动的能力。LLMs可以通过生成类似人类的文本、参与对话以及在没有详细逐步指令的情况下执行各种任务来展示一种自主性[114; 115]。此外,它们可以根据环境输入动态调整输出,反映出一定程度的适应性自主性[23; 27; 104]。此外,它们还可以通过展示创造力来展示自主性,例如提出新颖的想法、故事或解决方案,这些并没有被明确编程到它们中[116; 117]。这暗示了一定程度的自我指导探索和决策。像Auto-GPT[114]这样的应用展示了LLMs在构建自主智能体方面的潜力。只需为它们提供任务和一组可用工具,它们就可以自主制定计划并执行它们以实现最终目标。

反应性。智能体的反应性指的是其能够快速响应环境中的即时变化和刺激[9]。这意味着智能体能够感知其周围环境的变化,并迅速采取适当的行动。传统上,语言模型的感知空间被限制在文本输入上,而行动空间被限制在文本输出上。然而,研究人员已经展示了使用多模态融合技术扩展LLMs感知空间的潜力,使它们能够快速处理来自环境的视觉和听觉信息[25; 118; 119]。同样,通过具体化技术和工具使用,也可以扩展LLMs的行动空间[120; 121]。这些进步使LLMs能够有效地与现实世界物理环境进行交互,并在其中执行任务。一个主要挑战是,当执行非文本动作时,基于LLM的智能体需要一个中间步骤,即将思想生成或工具使用制定成文本形式,然后最终将其翻译成具体行动。这个中介过程消耗时间并降低了响应速度。然而,这与人类行为模式非常接近,其中观察到“三思而后行”的原则[122; 123]。

主动性。主动性表示智能体不仅仅对环境做出反应;它们具有通过主动采取行动来展示目标导向行动的能力[9]。这种属性强调智能体可以推理、制定计划,并在其行动中采取主动措施以实现特定目标或适应环境变化。尽管直观上LLMs中的下一个标记预测范式可能没有意图或欲望,但研究表明它们可以隐式地生成这些状态的表示,并指导模型的推理过程[46; 48; 49]。LLMs展示了强大的通用推理和规划能力。通过使用“让我们一步一步地思考”等指令提示大型语言模型,我们可以激发它们的推理能力,如逻辑和数学推理[95; 96; 97]。同样,大型语言模型也显示出规划的新兴能力,形式包括目标重新表述[99; 124]、任务分解[98; 125]以及根据环境变化调整计划[100; 126]。

社交能力。社交能力指的是智能体与其他智能体(包括人类)通过某种智能体通信语言进行交互的能力[8]。大型语言模型表现出强大的自然语言交互能力,如理解和生成[23; 127; 128]。与结构化语言或其他通信协议相比,这种能力使它们能够以可解释的方式与其他模型或人类进行交互。这构成了基于LLM的智能体社交能力的基础[22; 108]。许多研究人员已经证明,基于LLM的智能体可以通过社交行为如合作和竞争来提高任务表现[108; 111; 129; 130]。通过输入特定的提示,LLMs也可以扮演不同的角色,从而模拟现实世界中的社会分工[109]。此外,当我们将具有不同身份的多个智能体置于社会中时,可以观察到出现的社会现象[22]。

3 智能体的诞生:基于LLM的智能体的构建
看天空,你认为明天会下雨吗?
如果是的话,把伞给我。
环境
感知
工具
调用API ...
具体化
文本
根据当前的天气条件和互联网上的天气预报,明天很可能会下雨。这是你的伞。
大脑
知识
记忆
存储
决策制定
规划/推理
回顾摘要 检索 学习
概括/转移
输入
智能体行动

图2:基于LLM的智能体的概念框架,包括三个组成部分:大脑、感知和行动。作为控制器,大脑模块承担基本任务

**大脑模块**主要负责记忆、思考和决策等基本任务。**感知模块**负责处理来自外部环境的多模态信息,而**行动模块**则利用工具执行操作并影响周围环境。这里我们给出一个示例来说明工作流程:当一个人询问是否会下雨时,感知模块将指令转换为LLMs能理解的表示形式。然后大脑模块开始根据当前天气和互联网上的天气预报进行推理。最后,行动模块作出响应,将伞交给人。通过重复上述过程,智能体可以持续获得反馈并与环境互动。

“适者生存”[131]表明,如果一个人想要在外部环境中生存,他必须有效地适应周围环境。这要求他具有认知能力,能够感知并对外部世界的变化做出反应,这与第2.1节中提到的“智能体”定义一致。受此启发,我们提出了一个由三个关键部分组成的基于LLM的智能体的通用概念框架:大脑、感知和行动(见图2)。我们首先描述大脑的结构和工作机制,它主要由一个大型语言模型组成(§ 3.1)。大脑是AI智能体的核心,因为它不仅存储知识和记忆,还承担信息处理和决策制定等不可或缺的功能。它可以呈现推理和规划过程,并能很好地应对未见任务,展示智能体的智能。接下来,我们介绍感知模块(§ 3.2)。其核心目的是将智能体的感知空间从仅文本领域扩展到包括文本、听觉和视觉模态的多模态领域。这种扩展使智能体能够更有效地掌握和利用来自其周围环境的信息。最后,我们介绍旨在扩展智能体行动空间的行动模块(§ 3.3)。具体来说,我们赋予智能体具体化行动能力和工具操作技能,使其能够熟练地适应环境变化,提供反馈,甚至影响和塑造环境。

该框架可以根据不同的应用场景进行定制,即并非所有特定组件都会在所有研究中使用。通常,智能体的操作流程如下:首先,感知模块(对应于人类的感觉系统,如眼睛和耳朵)感知外部环境的变化,然后将多模态信息转换为智能体能理解的表示。随后,大脑模块作为控制中心,参与信息处理活动,如思考、决策制定和存储操作,包括记忆和知识。最后,行动模块(对应于人类的四肢)在工具的协助下执行操作,并对周围环境产生影响。通过重复上述过程,智能体可以持续获得反馈并与环境互动。

3.1 大脑
大脑
自然语言交互 §3.1.1
高质量生成
Bang等人[132],Fang等人[133],Lin等人[127],Lu等人[134]等。
深度理解
Buehler等人[135],Lin等人[128],Shapira等人[136]等。

知识 §3.1.2
基于LLM的智能体中的知识
预训练模型
Hill等人[137],Collobert等人[138],Kaplan等人[139],Roberts等人[140],Tandon等人[141]等。
语言知识
Vulic等人[142],Hewitt等人[143],Rau等人[144],Yang等人[145],Belocuif等人[146],Zhang等人[147],Bang等人[132]等。
常识知识
Safavi等人[148],Jiang等人[149],Madaan[150]等。
可操作知识
Xu等人[151],Cobbe等人[152],Thirunavukarasu等人[153],Lai等人[154],Madaan等人[150]等。

知识潜在问题
编辑错误和过时的知识
AlKhamissi等人[155],Kemker等人[156],Cao等人[157],Yao等人[158],Mitchell等人[159]等。
减轻幻觉
Manakul等人[160],Qin等人[94],Li等人[161],Gou等人[162]等。

记忆 §3.1.3
记忆能力
提高Transformers的长度限制
BART[163],Park等人[164],LongT5[165],CoLT5[166],Ruoss等人[167]等。
记忆总结
生成性智能体[22],SCM[168],Reflexion[169],Memorybank[170],ChatEval[171]等。
使用向量或数据结构压缩记忆
ChatDev[109],GITM[172],RET-LLM[173],AgentSims[174],ChatDB[175]等。
记忆检索
自动检索
生成性智能体[22],Memorybank[170],AgentSims[174]等。
交互式检索
Memory Sandbox[176],ChatDB[175]等。

推理与规划 §3.1.4
推理
CoT[95],Zero-shot-CoT[96],Self-Consistency[97],SelfPolish[99],Selection-Inference[177],Self-Refine[178]等。
规划
计划制定
Least-to-Most[98],SayCan[179],HuggingGPT[180],ToT[181],PET[182],DEPS[183],RAP[184],SwiftSage[185],LLM+P[125],MRKL[186]等。
计划反思
LLM-Planner[101],Inner Monologue[187],ReAct[91],ChatCoT[188],AI Chains[189],Voyager[190],Zhao等人[191],SelfCheck[192]等。

可转移性与泛化 §3.1.5
未见任务泛化
T0[106],FLAN[105],InstructGPT[24],Chung等人[107]等。
上下文学习
GPT-3[41],Wang等人[193],Wang等人[194],Dong等人[195]等。
持续学习
Ke等人[196],Wang等人[197],Razdaibiedina等人[198],Voyager[190]等。

图3:大脑模块的类型学。

11

人类大脑是一个复杂的结构,由大量相互连接的神经元组成,能够处理各种信息,产生多样的思想,控制不同的行为,甚至创造艺术和文化[199]。与人类类似,大脑作为AI智能体的中心核心,主要由一个大型语言模型组成。

操作机制。为确保有效沟通,进行自然语言交互的能力至关重要(§3.1.1)。接收到感知模块处理的信息后,大脑模块首先转向存储,检索知识(§3.1.2)和回忆记忆(§3.1.3)。这些结果帮助智能体制定计划、推理和做出明智的决策(§3.1.4)。此外,大脑模块还可以将智能体过去的观察、思考和行动以摘要、向量或其他数据结构的形式记忆。同时,它也可以更新知识,如常识和领域知识,以备将来使用。基于LLM的智能体还可以利用其固有的泛化和转移能力适应不熟悉的场景(§3.1.5)。在后续部分中,我们将详细探讨大脑模块的这些非凡方面,如图3所示。

3.1.1 自然语言交互
作为沟通媒介,语言包含丰富的信息。除了直观表达的内容外,还可能包含说话者的信念、欲望和意图[200]。得益于LLMs固有的强大自然语言理解和生成能力[25; 201; 202; 203],智能体可以熟练地进行不仅是基本的互动对话[204; 205; 206],而且是多语言[132; 202],还可以展示深入的理解能力,使人类能够轻松理解和与智能体互动[207; 208]。此外,使用自然语言进行通信的基于LLM的智能体可以获得更多的信任,并与人类更有效地合作[130]。

多轮交互对话。多轮对话的能力是有效且一致沟通的基础。作为大脑模块的核心,LLMs,如GPT系列[40; 41; 201],LLaMA系列[201; 209]和T5系列[107; 210],能够理解自然语言并生成连贯且与上下文相关的回应,这有助于智能体更好地理解并处理各种问题[211]。然而,即使是人类也发现在一次对话中不混淆地沟通是很困难的,因此需要多轮对话。与传统的仅文本阅读理解任务(如SQuAD[212])相比,多轮对话(1)是交互式的,涉及多个说话者,缺乏连续性;(2)可能涉及多个主题,对话的信息也可能是冗余的,使文本结构更加复杂[147]。一般来说,多轮对话主要分为三个步骤:(1)理解自然语言对话的历史,(2)决定采取什么行动,以及(3)生成自然语言回应。基于LLM的智能体能够使用现有信息不断改进输出,进行多轮对话,并有效地实现最终目标[132; 147]。

高质量自然语言生成 最近的LLMs表现出了卓越的自然语言生成能力,始终如一地在多种语言中产生高质量的文本[132; 213]。由LLM生成内容的连贯性[214]和语法准确性[133]不断增强,从GPT-3[41]发展到InstructGPT[24],最终到GPT-4[25]。See等人[214]通过实证证实,这些语言模型能够“适应条件文本的风格和内容”[215]。Fang等人[133]的结果显示,ChatGPT在语法错误检测方面表现出色,突显了其强大的语言能力。在对话环境中,LLMs在对话质量的关键指标上也表现良好,包括内容、相关性和适当性[127]。重要的是,它们不仅仅复制训练数据,而是显示出一定程度的创造力,生成多样化的文本,这些文本同样新颖甚至比人类制定的基准更具创新性[216]。同时,通过使用可控的提示,人类监督仍然有效,确保对这些语言模型生成的内容进行精确控制[134]。

意图和含义理解 尽管在大规模语料库上训练的模型已经足够智能,能够理解指令,但大多数模型仍然无法模仿人类对话或充分利用语言中传达的信息[217]。理解隐含意义对于有效沟通和与其他智能体合作至关重要[135],并能够解释他人的反馈。LLM的出现突出了基础模型理解人类意图的潜力,但当涉及到模糊指令或其他含义时,这对智能体来说是一个重大挑战[94; 136]。对人类来说,从对话中把握隐含意义是自然而然的,而对于智能体来说,它们应该将隐含意义形式化为奖励函数,以便在未见过的情境中选择与说话者偏好一致的选项[128]。奖励建模的主要方式之一是基于反馈推断奖励,主要以比较的形式呈现[218](可能辅以原因[219])和不受限制的自然语言[220]。另一种方式是从描述中恢复奖励,使用动作空间作为桥梁[128]。Jeon等人[221]建议,人类行为可以映射为从隐含的选项集中进行选择,这有助于以单一统一的形式解释所有信息。通过利用对上下文的理解,智能体可以采取高度个性化和准确的行动,以满足特定要求。

3.1.2 知识 由于现实世界的多样性,许多NLP研究人员尝试使用规模更大的数据。这些数据通常是非结构化和未标记的[137; 138],但它包含了语言模型可以学习的巨大知识。理论上,语言模型可以学习更多的知识,因为它们有更多的参数[139],而且语言模型有可能学会并理解自然语言中的所有内容。研究表明[140],接受大规模数据集训练的语言模型可以将各种知识编码到它们的参数中,并正确响应各种类型的查询。此外,这些知识可以帮助基于LLM的智能体做出明智的决策[222]。所有这些知识大致可以分为以下类型:

  • 语言知识[142; 143; 144]:语言知识以约束系统的形式表示,即语法,它定义了语言的所有且仅有的可能句子。它包括形态学、句法、语义学[145; 146]和语用学。只有获得语言知识的智能体才能理解句子并进行多轮对话[147]。此外,这些智能体可以通过在包含多种语言的数据集上训练来获得多语言知识[132],消除了对额外翻译模型的需求。

  • 常识知识[148; 149; 150]:常识知识指的是通常在很小的时候教给大多数人的一般性世界事实。例如,人们普遍知道药物用于治疗疾病,伞用于防雨。这类信息通常不会在上下文中明确提及。因此,缺乏相应常识知识的模型可能无法把握或误解意图的含义[141]。同样,没有常识知识的智能体可能会做出错误的决策,比如在下大雨时不带伞。

  • 专业领域知识:专业领域知识指的是与特定领域(如编程[151; 154; 150]、数学[152]、医学[153]等)相关的知识。对于模型有效地解决特定领域内的问题至关重要[223]。例如,设计用于执行编程任务的模型需要具备编程知识,如代码格式。同样,用于诊断目的的模型应该具备医学知识,如特定疾病的名称和处方药。

尽管LLMs在获取、存储和利用知识方面表现出色[155],但仍然存在潜在的问题和未解决的问题。例如,在训练过程中获得的模型知识可能从一开始就是错误的,或者随着时间的推移变得过时。解决这个问题的一个简单方法是重新训练。但这需要先进的数据、大量的时间和计算资源。更糟糕的是,这可能导致灾难性遗忘[156]。因此,一些研究人员[157; 158; 159]尝试编辑LLMs,以定位和修改模型中存储的特定知识。这涉及到卸载错误的知识,同时获取新知识。他们的实验表明,这种方法可以部分编辑事实知识,但其背后的机制仍需要进一步研究。此外,LLMs可能会生成与来源或事实信息相冲突的内容[224],这种现象通常被称为幻觉[225]。这是LLMs不能广泛应用于严格事实任务的关键原因之一。为了解决这个问题,一些研究人员[160]提出了一种度量标准来衡量幻觉的程度,并为开发人员提供了一个有效的参考来评估LLM输出的可信度。此外,一些研究人员[161; 162]使LLMs能够使用外部工具[94; 226; 227]来避免错误的知识。这两种方法都可以减轻幻觉的影响,但仍然需要进一步探索更有效的方法。

3.1.3 记忆 在我们的框架中,“记忆”存储智能体过去的观察、思考和行动序列,这类似于Nuxoll等人[228]提出的定义。正如人脑依赖记忆系统来利用以往的经验进行策略制定和决策,智能体也需要特定的记忆机制来确保它们能够熟练地处理一系列连续的任务[229; 230; 231]。面对复杂问题时,记忆机制帮助智能体重新审视并有效应用先前的策略。此外,这些记忆机制使个体能够通过借鉴过去的经验来适应不熟悉的环境。

随着基于LLM的智能体交互周期的扩展,出现了两个主要挑战。第一个挑战是历史记录的长度问题。基于LLM的智能体以自然语言格式处理之前的交互,将历史记录添加到每个后续输入中。随着这些记录的扩展,它们可能会超过大多数基于LLM的智能体所依赖的Transformer架构的约束。当这种情况发生时,系统可能会截断一些内容。第二个挑战是提取相关记忆的难度。随着智能体积累了大量的历史观察和行动序列,它们面临着不断增加的记忆负担。这使得在相关主题之间建立联系变得越来越具有挑战性,可能导致智能体对其持续的上下文做出错误的回应。

提高记忆能力的方法:

  • 提高Transformers的长度限制:第一种方法尝试解决或缓解固有的序列长度限制问题。Transformer架构由于其内在限制,在处理长序列时存在困难。随着序列长度的增加,由于自注意力机制中的成对标记计算,计算需求呈指数级增长。缓解这些长度限制的策略包括文本截断[163; 164; 232]、输入分段[233; 234]以及强调文本的关键部分[235; 236; 237]。一些其他工作通过修改注意力机制来降低复杂性,从而适应更长的序列[238; 165; 166; 167]。

  • 记忆总结:第二种增强记忆效率的策略依赖于记忆总结的概念。这确保了智能体能够从历史交互中轻松提取关键细节。已经提出了各种记忆总结技术。一些方法使用提示简洁地整合记忆[168],而其他方法强调反思过程以创建压缩的记忆表示[22; 239]。层次化方法将对话简化为日常快照和总体摘要[170]。值得注意的是,特定策略将环境反馈转化为文本封装,增强了智能体对未来参与的上下文把握[169]。此外,在多智能体环境中,智能体通信的关键元素被捕捉和保留[171]。

  • 使用向量或数据结构压缩记忆:通过使用合适的数据结构,智能体提高了记忆检索效率,便于及时响应交互。特别是,一些方法依赖于嵌入向量来记忆部分、计划或对话历史[109; 170; 172; 174]。另一种方法将句子转换为三元组配置[173],而一些则将记忆视为独特的数据对象,促进了多样化的交互[176]。此外,ChatDB[175]和DB-GPT[240]将LLMroller与SQL数据库集成,通过SQL命令实现数据操作。

记忆检索方法: 当智能体与环境或用户交互时,检索最适当的内容至关重要。这确保了智能体访问到相关且准确的信息以执行特定操作。一个重要问题出现了:智能体如何选择最合适的记忆?通常,智能体以自动化的方式检索记忆[170; 174]。自动化检索中的一个重要方法是考虑三个指标:最近性、相关性和重要性。记忆得分是这些指标的加权组合,得分最高的记忆在模型的上下文中被优先考虑[22]。

一些研究引入了交互式记忆对象的概念,这些是对对话历史的表示,可以通过摘要进行移动、编辑、删除或组合。用户可以查看和操作这些对象,影响智能体对对话的感知[

交互式记忆对象 这些对象是对对话历史的表示,可以通过摘要进行移动、编辑、删除或合并。用户可以查看和操作这些对象,影响智能体如何理解对话[176]。类似地,其他研究允许基于用户提供的特定命令进行记忆操作,例如删除[175]。这些方法确保记忆内容与用户的期望紧密对齐。

3.1.4 推理与规划 推理 推理,以证据和逻辑为基础,是人类智力努力的基石,是解决问题、决策制定和批判性分析的基础[241; 242; 243]。演绎、归纳和溯因是智力努力中公认的主要推理形式[244]。对于基于LLM的智能体来说,像人类一样,推理能力对于解决复杂任务至关重要[25]。

关于大型语言模型的推理能力存在不同的学术观点。一些人认为语言模型在预训练或微调期间就具备推理能力[244],而其他人则认为推理能力是在达到一定规模后才显现出来的[26; 245]。具体来说,代表性的链式推理(Chain-of-Thought, CoT)方法[95; 96]已经证明可以通过引导LLM生成理由然后再输出答案来激发大型语言模型的推理能力。还有一些其他策略被提出来提高LLMs的性能,如自我一致性[97]、自我润色[99]、自我精炼[178]和选择性推理[177]等。一些研究表明,逐步推理的有效性可以归因于训练数据的局部统计结构,局部变量之间的结构化依赖关系比在所有变量上训练具有更高的数据效率[246]。

规划 规划是人类面对复杂挑战时采用的关键策略。对人类来说,规划有助于组织思路、设定目标并确定实现这些目标的步骤[247; 248; 249]。与人类一样,规划能力对于智能体至关重要,而规划模块的核心是推理能力[250; 251; 252]。这为基于LLM的智能体提供了一个结构化的思维过程。通过推理,智能体将复杂任务分解为更易管理的子任务,并为每个任务制定适当的计划[253; 254]。此外,随着任务的进展,智能体可以利用自省来修改计划,确保它们更好地与现实世界的情况对齐,从而实现适应性和成功的任务执行。

通常,规划包括两个阶段:计划制定和计划反思。

  • 计划制定:在计划制定过程中,智能体通常会将一个总体任务分解为许多子任务,这一阶段提出了各种方法。值得注意的是,一些工作主张基于LLM的智能体一次性全面分解问题,制定完整计划然后顺序执行[98; 179; 255; 256]。相比之下,其他研究如CoT系列采用自适应策略,它们一次计划和解决一个子任务,允许更灵活地处理复杂任务的整体[95; 96; 257]。此外,一些方法强调分层规划[182; 185],而其他一些则强调一种策略,即最终计划是从以树状格式结构化的推理步骤中得出的。后者认为智能体在确定计划之前应该评估所有可能的路径[97; 181; 184; 258; 184]。虽然基于LLM的智能体展示了广泛的通用知识,但它们偶尔在面临需要专业知识的任务时会遇到挑战。通过将智能体与特定领域的规划器集成,已经显示出可以带来更好的性能[125; 130; 186; 259]。

  • 计划反思:制定计划后,反思和评估其优点至关重要。基于LLM的智能体利用内部反馈机制,通常从预先存在的模型中获得见解,以完善和增强它们的策略和规划方法[169; 178; 188; 192]。为了更好地符合人类的价值观和偏好,智能体积极与人类互动,允许它们纠正一些误解,并将这种定制的反馈整合到它们的规划方法中[108; 189; 190]。此外,它们还可以从实际或虚拟环境中的反馈中学习,例如从任务完成或行动后观察中获取线索,帮助它们修订和完善计划[91; 101; 187; 191; 260]。

3.1.5 可转移性与泛化 智能不应该局限于特定领域或任务,而应该包括广泛的认知技能和能力[31]。人脑的显著特性很大程度上归因于其高度的可塑性和适应性。它可以不断地调整其结构和功能以响应外部刺激和内部需求,从而适应不同的环境和任务。近年来,大量研究表明,在大规模语料库上预训练的模型可以学习通用的语言表示[36; 261; 262]。利用预训练模型的力量,只需少量数据进行微调,LLMs就能在下游任务中表现出色[263]。这不需要从头开始训练新模型,节省了大量的计算资源。然而,通过特定任务的微调,模型缺乏多样性,并且难以泛化到其他任务。与仅仅作为一个静态知识库不同,基于LLM的智能体表现出动态学习能力,使它们能够快速而稳健地适应新任务[24; 105; 106]。

未见任务泛化 研究表明,经过指令调整的LLMs表现出无需特定任务微调的零样本泛化[24; 25; 105; 106; 107]。随着模型规模和语料库规模的扩大,LLMs逐渐展现出在不熟悉任务中的显著能力[132]。具体来说,LLMs可以通过根据自己的理解遵循指令来完成在训练阶段没有遇到的新任务。多任务学习的一个实现是,例如FLAN[105]通过指令对语言模型进行微调,T0[106]引入了一个统一框架,将每个语言问题转换为文本到文本的格式。尽管纯粹是一个语言模型,GPT-4[25]在包括抽象、理解、视觉、编码、数学、医学、法律、理解人类动机和情感等多个领域和任务中表现出色[31]。值得注意的是,提示的选择对于适当的预测至关重要,并且直接在提示上进行训练可以提高模型在泛化到未见任务时的鲁棒性[264]。有希望的是,通过扩大模型规模和训练指令的数量或多样性,可以进一步增强这种泛化能力[94; 265]。

上下文学习 众多研究表明,LLMs可以通过上下文学习(ICL)执行各种复杂任务,这指的是模型从上下文中的少数示例中学习的能力[195]。少次上下文学习通过将原始输入与几个完整的示例连接起来作为提示,以丰富上下文,从而提高语言模型的预测性能[41]。ICL的关键思想是通过类比学习,这类似于人类的学习过程[266]。此外,由于提示是用自然语言编写的,交互是可解释和可变的,这使得将人类知识整合到LLMs中变得更加容易[95; 267]。与监督学习过程不同,ICL不涉及微调或参数更新,这可以大大减少适应新任务的计算成本。除了文本,研究人员还在不同的多模态任务中探索ICL的潜力[193; 194; 268; 269; 270; 271],使智能体能够应用于大规模现实世界任务。

持续学习 近期研究[190; 272]强调了LLMs的规划能力在促进智能体持续学习方面的潜力[196; 197],这涉及到技能的持续获取和更新。持续学习的一个核心挑战是灾难性遗忘[273]:当模型学习新任务时,它往往会丧失之前任务的知识。为了解决这一挑战,已经做出了许多努力,大致可以分为三组,引入了先前模型的常用术语[274; 275; 276; 277],近似先前数据分布[278; 279; 280],以及设计具有任务自适应参数的架构[281; 198]。基于LLM的智能体已成为一种新的范式,利用LLM的规划能力结合现有技能并解决更复杂的挑战。Voyager[190]尝试解决由GPT-4[25]自动制定的课程提出的越来越难的任务。通过从简单程序中综合复杂技能,智能体不仅快速增强了其能力,而且有效对抗了灾难性遗忘。

16

感知 文本输入 §3.2.1 视觉输入 §3.2.2 视觉编码器 ViT [282], VQVAE [283], MobileViT [284], MLP-Mixer [285] 等。 可学习架构 基于查询 Kosmos [286], BLIP-2 [287], InstructBLIP [288], MultiModalGPT [289], Flamingo [290] 等。 基于投影 PandaGPT [291], LLaVA [292], Minigpt-4 [118] 等。

听觉输入 §3.2.3 级联方式 AudioGPT [293], HuggingGPT [180] 等。 转移视觉方法 AST [294], HuBERT [295], X-LLM [296], Video-LLaMA [297] 等。

其他输入 §3.2.4 InternGPT [298] 等。

图4: 基于LLM的智能体感知模块的类型学。

3.2 感知 人类

人类和动物依赖于眼睛和耳朵等感觉器官来从周围环境中收集信息。这些感知输入被转换为神经信号并发送到大脑进行处理[299; 300],使我们能够感知和与世界互动。同样,对于基于LLM的智能体来说,从各种来源和模态接收信息至关重要。这种扩展的感知空间有助于智能体更好地理解其环境,做出明智的决策,并在更广泛的任务中表现出色,这是智能体发展的重要方向。智能体通过感知模块处理这些信息,将其传递给大脑模块进行处理。

在本节中,我们将介绍如何使基于LLM的智能体获得多模态感知能力,包括文本(§ 3.2.1)、视觉(§ 3.2.2)和听觉输入(§ 3.2.3)。我们还考虑了其他潜在的输入形式(§ 3.2.4),例如触觉反馈、手势和3D地图,以丰富智能体的感知领域并增强其多功能性。图4展示了基于LLM的智能体感知的类型学。

3.2.1 文本输入 文本是携带数据、信息和知识的一种方式,使文本通信成为人类与世界互动最重要的方式之一。基于LLM的智能体已经具备了通过文本输入和输出与人类通信的基本能力[114]。在用户的文本输入中,除了明确的内容外,还有信仰、欲望和意图等隐含意义。理解这些隐含意义对于智能体把握人类用户的潜在和隐含意图至关重要,从而提高与用户的通信效率和质量。然而,正如第3.1.1节所讨论的,对于当前基于LLM的智能体来说,理解文本输入中的隐含意义仍然是一个挑战。例如,一些研究[128; 218; 219; 220]采用强化学习来感知隐含意义,并模拟反馈以推导奖励。这有助于推断说话者的偏好,从而使智能体能够提供更个性化和准确的响应。此外,由于智能体旨在用于复杂的现实世界情境,它将不可避免地遇到许多全新的任务。理解未知任务的文本指令对智能体的文本感知能力提出了更高的要求。正如第3.1.5节所描述的,经过指令调整的LLM可以表现出显著的零样本指令理解和泛化能力,消除了特定任务微调的需要。

3.2.2 视觉输入 尽管LLM在语言理解[25; 301]和多轮对话[302]方面表现出色,但它们天生缺乏视觉感知能力,只能理解离散的文本内容。视觉输入通常包含有关智能体周围世界的信息,包括物体属性、空间关系、场景布局等。因此,将视觉信息与其他模态的数据结合,可以为智能体提供更广泛的上下文和更精确的理解[120],加深智能体对环境的感知。

为了帮助智能体理解图像中包含的信息,一种直接的方法是为图像输入生成相应的文本描述,称为图像字幕[303; 304; 305; 306; 307]。字幕可以直接与标准文本指令关联,并输入到智能体中。这种方法高度可解释,不需要额外的训练即可生成字幕,可以节省大量的计算资源。然而,字幕生成是一种低带宽方法[120; 308],在转换过程中可能会丢失大量潜在信息。此外,智能体对图像的关注可能会引入偏见。

受到Transformer在自然语言处理中出色表现的启发[309],研究人员已经将它们的应用扩展到计算机视觉领域。代表性的工作如ViT/VQVAE[282; 283; 284; 285; 310]已经成功地使用Transformer编码视觉信息。研究人员首先将图像划分为固定大小的块,然后将这些块经过线性投影后作为输入标记用于Transformer[292]。最后,通过计算标记之间的自注意力,它们能够整合整个图像的信息,从而有效地感知视觉内容。因此,一些工作[311]尝试将图像编码器和LLM直接结合起来,以端到端的方式训练整个模型。虽然智能体可以取得显著的视觉感知能力,但这需要大量的计算资源。

广泛预训练的视觉编码器和LLM可以大大增强智能体的视觉感知和语言表达能力[286; 312]。在训练过程中冻结它们中的一个或两个是一种广泛采用的范式,它在训练资源和模型性能之间实现了平衡[287]。然而,LLM不能直接理解视觉编码器的输出,因此需要将图像编码转换为LLM能够理解的嵌入。换句话说,它涉及到将视觉编码器与LLM对齐。这通常需要在它们之间添加一个额外的可学习接口层。例如,BLIP-2[287]和InstructBLIP[288]使用查询转换器(Q-Former)模块作为视觉编码器和LLM之间的中间层[288]。Q-Former是一个使用可学习查询向量的转换器[289],它具有提取语言信息视觉表示的能力。它可以为LLM提供最有价值的信息,减少智能体学习视觉-语言对齐的负担,从而缓解灾难性遗忘的问题。同时,一些研究人员采用计算效率高的方法,使用单一投影层实现视觉-文本对齐,减少了训练额外参数的需求[118; 291; 312]。此外,投影层可以有效地与可学习接口集成,适应其输出的维度,使其与LLM兼容[296; 297; 313; 314]。

视频输入由一系列连续的图像帧组成。因此,智能体用于感知图像的方法[287]可能也适用于视频领域,使智能体也能很好地感知视频输入。与图像信息相比,视频信息增加了时间维度。因此,智能体对不同帧之间随时间变化的关系的理解对于感知视频信息至关重要。一些工作,如Flamingo[290; 315],通过掩码机制确保在理解视频时保持时间顺序。掩码机制限制了智能体的视角,使其只能访问在视频的特定帧中发生的时间上更早的帧的视觉信息。

3.2.3 听觉输入 毫无疑问,听觉信息是世界信息的重要组成部分。当智能体具备听觉能力时,它可以提高对交互内容、周围环境甚至潜在危险的意识。事实上,已经有许多成熟和广泛采用的模型和方法[293; 316; 317]用于独立处理音频。然而,这些模型通常在特定任务上表现出色。鉴于LLMs出色的工具使用能力(将在第3.3节中详细讨论),一个直观的想法是智能体可以使用LLMs作为控制中心,以级联的方式调用现有的工具集或模型库来感知音频信息。例如,AudioGPT[293]充分利用了FastSpeech[317]、GenerSpeech[316]、Whisper[316]等模型的能力,这些模型在文本到语音、风格转换和语音识别等任务上取得了优异的成绩。

音频频谱图提供了随时间变化的音频信号频率谱的直观表示[323]。对于一段时间内的音频数据片段,它可以被抽象为有限长度的音频频谱图。音频频谱图具有二维表示,可以可视化为平面图像。因此,一些研究[294; 295]努力将视觉领域的感知方法迁移到音频领域。AST(Audio Spectrogram Transformer)[294]采用了与ViT类似的Transformer架构来处理音频频谱图图像。通过将音频频谱图划分为块,它实现了有效的音频信息编码。此外,一些研究人员[296; 297]受到冻结编码器以减少训练时间和计算成本的启发。他们通过添加相同的可学习接口层,将音频编码与来自其他模态的数据编码对齐。

3.2.4 其他输入 如前所述,许多研究已经研究了文本、视觉和音频的感知单元。然而,基于LLM的智能体可能配备了更丰富的感知模块。在未来,它们可以像人类一样感知和理解现实世界中的多种模态。例如,智能体可以拥有独特的触觉和嗅觉器官,使它们在与物体互动时能够收集更详细的信息。同时,智能体也可以清楚地感知周围环境的温度、湿度和亮度,使它们能够采取环境意识行动。此外,通过有效整合基本的感知能力,如视觉、文本和光敏性,智能体可以为人类开发各种用户友好的感知模块。InternGPT[298]引入了指向指令。用户可以通过使用手势或移动光标来选择、拖动或绘制,与图像中特定且难以描述的部分进行交互。添加指向指令有助于为各个文本指令提供更精确的规范。在此基础之上,智能体有潜力感知更复杂的用户输入。例如,AR/VR设备中的眼动追踪技术、身体动作捕捉,甚至是脑机交互中的脑波信号。

最后,一个类人的基于LLM的智能体应该具有对更广泛环境的意识。目前,有许多成熟且广泛采用的硬件设备可以协助智能体完成这一任务。激光雷达[324]可以创建3D点云地图,帮助智能体检测和识别周围的物体。GPS[325]可以提供准确的地理位置坐标,并可以与地图数据集成。惯性测量单元(IMUs)可以测量和记录物体的三维运动,提供有关物体速度和方向的详细信息。然而,这些感知数据复杂,不能直接被基于LLM的智能体理解。探索智能体如何感知更全面输入是一个有前景的未来方向。

3.3 行动 行动 文本输出 §3.3.1 工具 §3.3.2 学习工具 Toolformer [92], T

当人类感知到他们的环境后,他们的大脑会整合、分析并推理所感知到的信息,并做出决策。随后,他们利用自己的神经系统控制身体,以适应或创造性地响应环境,例如进行对话、躲避障碍或生火。当一个智能体拥有类似大脑的结构,具备知识、记忆、推理、规划和泛化的能力,以及多模态感知时,它也应具备与人类相似的多样化行动能力,以响应其周围环境。在智能体的构建中,行动模块接收大脑模块发送的行动序列,并执行行动与环境互动。如图5所示,本节从文本输出(§ 3.3.1)开始,这是基于LLM的智能体的固有能力。接下来,我们讨论了基于LLM的智能体使用工具的能力(§ 3.3.2),这已被证明在增强它们的多样性和专业知识方面是有效的。最后,我们讨论了为基于LLM的智能体配备具体行动以促进其在物理世界中的基础(§ 3.3.3)。

19

3.3.1 文本输出
如第3.1.1节所讨论的,基于Transformer的生成性大型语言模型的兴起和发展,赋予了基于LLM的智能体固有的语言生成能力[132; 213]。它们生成的文本质量在流畅性、相关性、多样性和可控性等方面表现出色[127; 214; 134; 216]。因此,基于LLM的智能体可以成为非常强大的语言生成器。

3.3.2 工具使用
工具是工具使用者能力的延伸。面对复杂任务时,人类会使用工具来简化任务解决过程并提高效率,从而节省时间和资源。同样,如果智能体也学会使用和利用工具,它们也有可能更有效地完成复杂任务,并提高质量[94]。

基于LLM的智能体在某些方面存在局限性,而使用工具可以增强智能体的能力。首先,尽管基于LLM的智能体拥有强大的知识库和专业知识,它们并不能记住每一条训练数据[341; 342]。它们也可能由于上下文提示的影响而无法正确引导到正确的知识[226],甚至生成幻觉知识[208]。再加上缺乏特定领域和场景的语料库、训练数据和调整,智能体在特定领域的专业知识也受到限制[343]。专业工具使LLM能够增强其专业知识,适应领域知识,并以插件形式更适合特定领域的需求。此外,基于LLM的智能体的决策过程缺乏透明度,使它们在高风险领域(如医疗和金融)中不太可信[344]。此外,LLM容易受到对抗性攻击[345],它们对微小输入修改的鲁棒性不足。相比之下,借助工具完成任务的智能体表现出更强的可解释性和鲁棒性。工具的执行过程可以反映智能体解决复杂需求的方法,并增强其决策的可信度。此外,由于工具是为特定的使用场景专门设计的,使用这些工具的智能体更能应对微小的输入修改,并且更能抵抗对抗性攻击[94]。

基于LLM的智能体不仅需要使用工具,而且非常适合工具集成。利用通过预训练过程和CoT提示积累的丰富世界知识,LLM在复杂的交互环境中展示了显著的推理和决策能力[97],这有助于智能体以适当的方式分解并解决用户指定的任务。更重要的是,LLM在意图理解等方面显示出巨大的潜力[25; 201; 202; 203]。当智能体与工具结合时,工具使用门槛可以降低,从而充分释放人类用户的创造潜力[94]。

理解工具。智能体有效使用工具的先决条件是全面了解工具的应用场景和调用方法。没有这种理解,智能体使用工具的过程将变得不可信,无法真正增强智能体的能力。利用LLM强大的零样本和少样本学习能力[40; 41],智能体可以通过描述工具功能和参数的零样本提示,或提供特定工具使用场景和对应方法的少样本提示,来获取有关工具的知识[92; 326]。这些学习方法与人类通过查阅工具手册或观察他人使用工具的学习方式相似[94]。面对复杂任务时,单一工具通常是不够的。因此,智能体应该首先适当地将复杂任务分解为子任务,它们对工具的理解在任务分解中起着重要作用。

学习使用工具。智能体学习使用工具的方法主要包括从演示学习和从反馈中学习。这涉及到模仿人类专家的行为[346; 347; 348],以及理解行动的后果,并根据从环境和人类那里收到的反馈进行调整[24; 349; 350]。环境反馈包括关于行动是否成功完成任务的结果反馈,以及捕捉由行动引起的环境状态变化的中间反馈;人类反馈包括明确的评估和隐性行为,如点击链接[94]。

如果智能体在应用工具时缺乏适应性,它就不能在所有场景中取得可接受的性能。智能体需要将其在特定情境中学到的工具使用技能泛化到更一般的情况,例如,将训练在雅虎搜索上的模型转移到谷歌搜索。为了实现这一点,智能体需要掌握工具使用策略中的共同原则或模式,这可能通过元工具学习来实现[327]。增强智能体对简单和复杂工具之间关系的理解,例如复杂工具是如何建立在更简单工具之上的,可以有助于智能体的泛化工具使用能力。这使智能体能够有效地辨别不同应用场景中的细微差别,并将之前学到的知识转移到新工具中[94]。课程学习[351]允许智能体从简单工具开始,逐步学习复杂工具,符合要求。此外,得益于对用户意图推理和规划能力的了解,智能体可以更好地设计工具使用方法和协作,然后提供更高质量的结果。

为自给自足制造工具。现有的工具通常为人类方便而设计,可能对智能体来说不是最优的。为了让智能体更好地使用工具,需要为智能体专门设计工具。这些工具应该更具模块化,并且具有更适合智能体的输入输出格式。如果提供指令和演示,基于LLM的智能体还具备通过生成可执行程序或将现有工具整合成更强大工具来创建工具的能力[94; 330; 352],并且它们可以学习进行自我调试[331]。此外,如果作为工具制造者的智能体成功地创建了一个工具,它可以为多智能体系统中的其他智能体产生包含工具代码和演示的包,除了使用该工具本身[329]。可以推测,在未来,智能体可能会变得自给自足,在工具方面表现出高度的自主性。

工具可以扩展基于LLM的智能体的行动空间。在工具的帮助下,智能体可以在推理和规划阶段利用各种外部资源,如Web应用程序和其他LMs[92]。这个过程可以为智能体提供具有专业知识、可靠性、多样性和高质量的信息,促进它们的决策和行动。例如,基于搜索的工具可以通过外部数据库、知识图谱和网页提高智能体可访问知识的范围和质量,而特定领域的工具可以增强智能体在相应领域的专业知识[211; 353]。一些研究人员已经开发了基于LLM的控制器,生成SQL语句查询数据库,或将用户查询转换为搜索请求并使用搜索引擎获取所需结果[90; 175]。更重要的是,基于LLM的智能体可以使用科学工具来执行化学中的有机合成任务,或与Python解释器接口以提高它们在复杂数学计算任务上的性能[354; 355]。对于多智能体系统,通信工具(例如电子邮件)可能作为智能体在严格的安全约束下相互交互的手段,促进它们的协作,并展示自主性和灵活性[94]。

尽管前面提到的工具增强了智能体的能力,但与环境的交互媒介仍然是基于文本的。然而,工具旨在扩展语言模型的功能,其输出不仅限于文本。非文本输出的工具可以多样化智能体行动的模态,从而扩大基于LLM的智能体的应用场景。例如,通过视觉模型,智能体可以完成图像处理和生成[328]。在航空航天工程中,正在探索智能体用于模拟物理和解决复杂的微分方程[356];在机器人领域,智能体需要规划物理操作和控制机器人执行[179]等。能够通过工具或以多模态方式与环境或世界动态交互的智能体,可以被称为数字化具体化的[94]。智能体的具体化一直是具身学习研究的核心焦点。我们将在第3.3.3节中深入讨论智能体的具体行动。

3.3.3 具体行动
在追求人工通用智能(AGI)的过程中,具体化智能体被认为是一个关键的范式,它努力将模型智能与物理世界相结合。具体化假设[357]从人类智能发展过程中汲取灵感,提出智能体的智能来自于与环境的持续互动和反馈,而不是仅仅依赖于精心策划的教科书。同样,与那些从互联网数据集中学习显式能力以解决领域问题的传统的深度学习模型不同,人们期待基于LLM的智能体的行为将不再局限于纯文本输出或调用确切的工具来执行特定领域任务[358]。相反,它们应该能够主动感知、理解并与物理环境互动,做出决策,并基于LLM的广泛内部知识生成特定行为以修改环境。我们将这些统称为具体行动,这使智能体能够以与人类行为非常相似的方式与世界互动和理解。

基于LLM的智能体在具体行动方面的潜力。在LLM广泛兴起之前,

基于LLM的智能体在具体行动方面的潜力。在LLM广泛兴起之前,研究人员倾向于使用强化学习等方法来探索智能体的具体行动。尽管基于RL的具身化取得了巨大成功[359; 360; 361],但它在某些方面确实存在局限性。简而言之,RL算法在数据效率、泛化和复杂问题推理方面面临限制,这是由于对动态且常常含糊不清的真实环境建模的挑战,或者它们对精确奖励信号表示的严重依赖[362]。最近的研究表明,利用LLM在预训练期间获得的丰富内部知识可以有效缓解这些问题[120; 187; 258; 363]。

- **成本效率**:一些策略算法在样本效率上存在困难,因为它们需要新数据来更新策略,而收集足够的具身化数据进行高性能训练既昂贵又嘈杂。这种限制也存在于某些端到端模型中[364; 365; 366]。通过利用LLM的内在知识,像PaLM-E[120]这样的智能体可以联合训练机器人数据和一般视觉-语言数据,实现在具身任务中的显著迁移能力,同时也展示了几何输入表示可以提高训练数据效率。

- **具体行动泛化**:如第3.1.5节所讨论的,智能体的能力应该超越特定任务。面对复杂、未知的真实世界环境时,智能体展示动态学习和泛化能力至关重要。然而,大多数RL算法被设计用于为特定任务训练和评估相关技能[101; 367; 368; 369]。相比之下,通过多样化的形式和丰富的任务类型进行微调的LLM,已经展示了显著的跨任务泛化能力[370; 371]。例如,PaLME展示了对新对象或现有对象的新组合的惊人零样本或少样本泛化能力[120]。此外,语言熟练度是LLM基础智能体的一个独特优势,既可以作为与环境互动的手段,也可以作为将基础技能转移到新任务的媒介[372]。SayCan[179]使用LLM将提示中的任务指令分解为相应的技能命令,但在部分可观察的环境中,有限的先前技能往往无法达到令人满意的性能[101]。为了解决这个问题,Voyager[190]引入了技能库组件,以持续收集新的自我验证技能,这允许智能体具备终身学习能力。

- **具体行动规划**:规划是人类应对复杂问题的关键策略,也是基于LLM的智能体的关键策略。在LLM展示出色的推理能力之前,研究人员引入了分层强化学习方法(HRL),其中高层策略为低层策略设定子目标,低层策略产生适当的动作信号[373; 374; 375]。类似于高层策略的作用,具有新兴推理能力的LLM可以无缝应用于复杂任务,以零样本或少样本的方式[95; 97; 98; 99]。此外,来自环境的外部反馈可以进一步增强基于LLM的智能体的规划性能。基于当前环境反馈,一些工作[101; 91; 100; 376]动态生成、维护和调整高层行动计划,以最小化对先前知识的依赖,在部分可观察的环境中,从而为计划提供基础。反馈也可以来自模型或人类,通常可以称为评论家,根据当前状态和任务提示评估任务完成情况[25; 190]。

基于LLM的智能体的具体行动。根据智能体在任务中的自主性水平或行动的复杂性,有几种基本的基于LLM的具体行动,主要包括观察、操作和导航。

- **观察**:观察是智能体获取环境信息和更新状态的主要方式,在提高随后具体行动的效率中起着至关重要的作用。如第3.2节所述,具体智能体的观察主要发生在具有各种输入的环境中,最终汇聚成多模态信号。一种常见的方法是使用预训练的视觉Transformer(ViT)作为文本和视觉信息的对齐模块,并标记特殊标记以表示多模态数据的位置[120; 332; 121]。Soundscapes[377]提出了一种通过混响音频输入引导的物理空间几何元素识别方法,为智能体的观察提供了更全面的视角[375]。最近,甚至有更多研究将音频作为嵌入式观察的模态。除了广泛采用的级联范式[293; 378; 316]外,类似于ViT的音频信息编码进一步增强了音频与其他输入模态的无缝集成[294]。智能体对环境的观察也可以从人类的真实时语言指令中获得,而人类反馈有助于智能体获取可能无法轻易获得或解析的详细信息[333; 190]。

- **操作**:通常,具体智能体的操作任务包括物体重新排列、桌面操作和移动操作[23; 120]。典型案例包括智能体在厨房中执行一系列任务,包括从抽屉中取出物品并交给用户,以及清洁桌面[179]。除了精确的观察外,这还涉及利用LLM将一系列子目标结合起来。因此,保持智能体状态与子目标之间的同步非常重要。DEPS[183]利用基于LLM的交互式规划方法来维持这种一致性,并在多步骤、长期的推理过程中帮助从智能体反馈中进行错误纠正。与这些相反,AlphaBlock[334]专注于更具挑战性的操作任务(例如使用积木制作笑脸),这要求智能体对指令有更具体的理解。与现有的开环范式不同,AlphaBlock构建了一个包含35个复杂高级任务的数据集,以及相应的多步骤规划和观察对,然后微调多模态模型以增强其对高级认知指令的理解。

- **导航**:导航允许智能体在环境中动态改变其位置,通常涉及多角度和多物体观察,以及基于当前探索的长期操作[23]。在导航之前,具体智能体必须建立关于外部环境的内部地图,这些地图通常以拓扑图、语义图或占用图的形式存在[358]。例如,LM-Nav[335]使用VNM[379]创建内部拓扑图。它进一步利用LLM和VLM分解输入命令并分析环境以找到最佳路径。此外,一些[380; 381]强调空间表示的重要性,以实现空间目标的精确定位,而不是传统的点或对象中心导航操作,通过利用预训练的VLM模型将图像的视觉特征与物理世界的3D重建结合起来[358]。导航通常是一个长期任务,智能体的即将到来的状态受到其过去行为的影响。需要一个记忆缓冲区和摘要机制作为历史信息的参考[336],这也在Smallville和Voyager[22; 190; 382; 383]中使用。此外,如第3.2节所述,一些工作已经提出音频输入也非常重要,但将音频信息与视觉环境结合在一起存在挑战。一个基本框架包括一个动态路径规划器,它使用视觉和听觉观察以及空间记忆来规划一系列导航动作[375; 384]。

通过整合这些,智能体可以完成更复杂的任务,例如具体化的问题回答,其主要目标是自主探索环境,并响应预定义的多模态问题,例如“厨房里的西瓜比锅大吗?哪一个更硬?”为了回答这些问题,智能体需要导航到厨房,观察两个物体的大小,然后通过比较来回答问题[358]。

在控制策略方面,如前所述,基于特定具体化数据集训练的基于LLM的智能体通常生成高级策略命令来控制低级策略,以实现特定的子目标。低级策略可以是机器人变换器[120; 385; 386],它将图像和指令作为输入,并为末端执行器以及特定具体化任务中的机器人臂产生控制命令[179]。最近,在虚拟具体化环境中,高级策略被用来控制游戏[172; 183; 190; 337]或模拟世界[22; 108; 109]中的智能体。例如,Voyager[190]调用Minecraft的Minecraft API接口,不断获得各种技能并探索世界。

具体化行动的前景。基于LLM的具体化行动被视为虚拟智能与物理世界之间的桥梁,使智能体能够像人类一样感知和修改环境。然而,仍然存在一些限制,例如物理世界机器人操作的高成本和具体化数据集的稀缺,这促进了在像Minecraft这样的模拟环境中调查智能体具体化行动的日益增长的兴趣[183; 338; 337; 190; 339]。通过使用Minecraft API,这些调查能够以成本效益的方式检查一系列具体化智能体的操作,包括探索、规划、自我改进,甚至是终身学习[190]。尽管取得了显著进展,但由于模拟平台和物理世界之间的显著差异,实现最佳具体化行动仍然是一个挑战。为了在现实世界场景中有效部署具体化智能体,对与现实世界条件紧密对应的具体化任务范式和评估标准的需求日益增加[358]。另一方面,为智能体学习语言基础也是一个障碍。例如,“像猫一样跳下来”这样的表达主要传达了轻盈和宁静的感觉,但这种语言隐喻需要足够的世界知识[30]。[340]尝试将文本蒸馏与Hindsight Experience Replay (HER)结合起来,构建一个数据集作为训练过程的监督信号。然而,在具体化行动在人类生活各个领域中扮演越来越关键的角色时,对具体化数据集的额外研究仍然需要。

4 实践中的智能体:利用AI为好
实践中的智能体:

单智能体部署 §4.1

任务导向部署 §4.1.1
网络场景
WebAgent [388], Mind2Web [389], WebGum [390], WebArena [391], Webshop [392], WebGPT [90], Kim等人 [393], Zheng等人 [394], 等等。
生活场景
InterAct [395], PET [182], Huang等人 [258], Gramopadhye等人 [396], Raman等人 [256], 等等。

创新导向部署 §4.1.2
Li等人 [397], Feldt等人 [398], ChatMOF [399], ChemCrow [354], Boiko等人 [110], SCIENCEWORLD等人 [400], 等等。

生命周期导向部署 §4.1.3
Voyager [190], GITM [172], DEPS [183], Plan4MC [401], Nottingham等人 [339], 等等。

多智能体互动 §4.2
合作互动 §4.2.1
无序合作
ChatLLM [402], RoCo [403], Blind Judgement [404], 等等。
有序合作
MetaGPT [405], ChatDev [109], CAMEL [108], AutoGen [406], SwiftSage [185], ProAgent [407], DERA [408], Talebirad等人 [409], AgentVerse [410], CGMI [411], Liu等人 [27], 等等。

对抗互动 §4.2.2
ChatEval [171], Xiong等人 [412], Du等人 [111], Fu等人 [129], Liang等人 [112], 等等。

人-智能体互动 §4.3
指导员-执行者范式 §4.3.1
教育 Dona [413], Math Agents [414], 等等。
健康 Hsu等人 [415], HuatuoGPT [416], Zhongjing [417], LISSA [418], 等等。
其他应用 Gao等人 [419], PEER [420], DIALGEN [421], AssistGPT [422], 等等。

平等伙伴关系范式 §4.3.2
共情沟通者
SAPIEN [423], Hsu等人 [415], Liu等人 [424], 等等。
人类水平参与者
Bakhtin等人 [425], FAIR等人 [426], Lin等人 [427], Li等人 [428], 等等。

图6: 基于LLM的智能体应用的类型学。
基于LLM的智能体,作为一个新兴的方向,已经越来越受到研究人员的关注。许多特定领域和任务的应用已经被开发出来,展示了智能体的强大和多功能能力。我们可以非常有信心地说,拥有一个能够协助用户处理日常任务的个人智能体的可能性比以往任何时候都要大[398]。作为一个基于LLM的智能体,其设计目标应该始终对人类有益,即人类可以利用AI为好。具体来说,我们期望智能体实现以下目标:

4
单智能体 智能体-智能体 智能体-人类
图7: 基于LLM的智能体应用的场景。我们主要介绍三种场景:单智能体部署、多智能体互动和人-智能体互动。单个智能体拥有多样化的能力,在各种应用方向中可以展示出色的任务解决表现。当多个智能体互动时,它们可以通过合作或对抗互动实现进步。此外,在人-智能体互动中,人类的反馈可以使智能体更有效地执行任务,同时智能体也可以为人类提供更好的服务。

1. 帮助用户从日常任务和重复劳动中解放出来,从而减轻人类的工作压力并提高任务解决效率。
2. 不再需要用户提供明确的低级指令。相反,智能体可以独立分析、规划和解决问题。
3. 在解放了用户的双手之后,智能体还解放了他们的思想,使他们能够从事探索性和创新性的工作,实现在尖端科学领域的全部潜力。

在本节中,我们深入概述了基于LLM的智能体的当前应用,旨在为实际部署场景提供广阔的视角(见图7)。首先,我们阐明了单智能体的多样化应用场景,包括任务导向、创新导向和生命周期导向的场景(§ 4.1)。然后,我们展示了多个智能体的重要协调潜力。无论是通过合作互动实现互补性还是通过对抗互动实现进步,这两种方法都可以提高任务效率和响应质量(§ 4.2)。最后,我们将人与智能体的互动分为两种范式,并分别介绍了主要形式和具体应用(§ 4.3)。基于LLM的智能体应用的拓扑图如图6所示。

4.1 单智能体的通用能力
目前,基于LLM的智能体的应用实例正在蓬勃发展[429; 430; 431]。AutoGPT [114]是一个正在进行的流行的开源项目,旨在实现一个完全自主的系统。除了像GPT-4这样的大型语言模型的基本功能外,AutoGPT框架还结合了各种实用的外部工具和长/短期记忆管理。在用户输入他们的定制目标后,他们可以放手让AutoGPT自动生成想法并执行特定任务,而不需要额外的用户提示。

如图8所示,我们介绍了在只有单个智能体存在的场景中,智能体展示的惊人多样化的能力。

4.1.1 任务导向部署
能够理解人类自然语言命令并执行日常任务的基于LLM的智能体,目前是最受用户青睐和实际价值最高的智能体之一。这是因为它们有潜力提高任务效率,减轻用户工作负担,并促进更广泛用户群体的接入。在任务导向部署中,智能体遵循用户的高级指令,承担诸如目标分解[182; 258; 388; 394]、子目标序列规划[182; 395]、环境交互探索[256; 391; 390; 392]等任务,直到最终目标实现。

为了探索智能体能否执行基本任务,它们首先被部署在基于文本的游戏场景中。在这种类型的游戏中,智能体纯粹使用自然语言与世界互动[432]。通过阅读周围环境的文本描述,并利用记忆、规划等技能[182],它们预测下一个行动。然而,由于基础语言模型的限制,智能体在实际执行过程中往往依赖于强化学习[432; 433; 434]。

随着LLMs的逐渐发展[301],具备更强文本理解和生成能力的智能体已经显示出通过自然语言执行任务的巨大潜力。由于它们的过于简化性质,天真的基于文本的场景已经不足以作为测试基于LLM的智能体的场所[391]。为了满足需求,构建了更现实和复杂的模拟测试环境。基于任务类型,我们将这些模拟环境分为网络场景和生活场景,并介绍了智能体在其中扮演的具体角色。

在网络场景中。在网络场景中代表用户执行特定任务被称为网络导航问题[390]。智能体解释用户指令,将它们分解为多个基本操作,并与计算机互动。这通常包括填写表单、网上购物和发送电子邮件等网络任务。智能体需要具备在复杂的网络场景中理解指令的能力,适应变化(例如嘈杂的文本和动态HTML网页),并泛化成功的操作[391]。这样,智能体在未来处理未见任务时可以实现可访问性和自动化,最终将人类从与计算机UI的重复交互中解放出来。

通过强化学习训练的智能体可以有效地模仿人类行为,使用预定义的动作如打字、搜索、导航到下一页等。它们在基本任务如网上购物[392]和搜索引擎检索[90]中表现良好,这些任务已经被广泛探索。然而,没有LLM能力的智能体可能难以适应现实世界互联网中更现实和复杂的场景。在动态、内容丰富的网页如在线论坛或在线商业管理[391]中,智能体经常面临性能挑战。

为了使智能体能够成功地与更现实的网页互动,一些研究人员[393; 394]开始利用LLM强大的HTML阅读和理解能力。通过设计提示,他们试图让智能体理解整个HTML源代码,并预测更合理的下一步行动。Mind2Web [389]结合了多个为HTML微调的LLM,允许它们在现实场景中总结冗长的HTML代码[388]并提取有价值信息。此外,WebGum [390]通过使用包含HTML截图的多模态语料库,赋予智能体视觉感知能力。它同时微调LLM和视觉编码器,加深了智能体对网页的全面理解。

在生活场景中。在许多日常家庭任务中,智能体理解隐含指令并应用常识知识是至关重要的[433]。对于仅在大量文本上训练的基于LLM的智能体,人类认为理所当然的任务可能需要多次尝试和错误[432]。更现实的场景往往导致更模糊和微妙的任务。例如,如果房间很暗并且有灯,智能体应该主动打开它。为了在厨房成功切一些蔬菜,智能体需要预测刀的可能位置[182]。

智能体能否将训练数据中嵌入的世界知识应用到实际交互场景中?Huang等人[258]率先探索了这个问题。他们展示了足够大的LLM,通过适当的提示,可以有效地将高级任务分解为合适的子任务,而无需额外的训练。然而,这种静态推理和规划能力

有潜在的缺点。智能体生成的动作常常缺乏对周围动态环境的认识。例如,当用户给出任务“打扫房间”时,智能体可能会将其转换为不可行的子任务,如“打电话给清洁服务”[396]。

为了在互动期间为智能体提供全面的情境信息,一些方法直接将空间数据和物品位置关系作为额外输入纳入模型。这允许智能体获得对周围环境的精确描述[395; 396]。Wu等人[182]引入了PET框架,该框架通过早期错误纠正方法[256]减少环境信息中的不相关对象和容器。PET鼓励智能体探索情境并更有效地规划行动,专注于当前的子任务。

4.1.2 创新导向部署
基于LLM的智能体在执行任务和提高重复工作效率方面表现出强大的能力。然而,在更具智力挑战性的领域,如尖端科学,智能体的潜力尚未完全实现。这种局限性主要源于两个挑战[399]:一方面,科学的固有复杂性构成了重大障碍。许多特定领域的术语和多维结构难以用单一文本表示,结果,它们的完整属性无法完全被封装。这大大削弱了智能体的认知水平。另一方面,在科学领域严重缺乏合适的训练数据,使智能体难以理解整个领域知识[400; 436]。如果智能体能够发现自主探索的能力,无疑将为人类技术带来有益的创新。

目前,各个专业领域的众多努力都旨在克服这一挑战[437; 438; 439]。计算机领域的专家充分利用智能体强大的代码理解和调试能力[398; 397]。在化学和材料领域,研究人员为智能体配备了大量的通用或特定任务的工具,以更好地理解领域知识。智能体发展成为全面的科学助手,精通在线研究和文档分析以填补数据空白。它们还利用机器人API进行现实世界互动,实现材料合成和机制发现等任务[110; 354; 399]。

基于LLM的智能体在科学创新方面的潜力是显而易见的,但我们不希望它们在可能威胁或伤害人类的应用中的探索能力被利用。Boiko等人[110]研究了智能体在合成非法药物和化学武器方面的潜在危险,表明智能体可能被恶意用户通过对抗性提示误导。这为我们未来的工作提供了警示。

4.1.3 生命周期导向部署
构建一个能够在开放、未知的世界中持续探索、发展新技能并维持长期生命周期的通用智能体是一个巨大的挑战。这一成就是通用人工智能(AGI)领域的一个重要里程碑[183]。Minecraft作为一个典型的、广泛探索的模拟生存环境,已经成为发展和测试智能体综合能力的独特试验场。玩家通常从学习基础知识开始,如挖掘木材和制作工艺台,然后转向更复杂的任务,如与怪物战斗和制作钻石工具[190]。Minecraft基本上反映了真实世界,使研究人员能够调查智能体在真实世界中生存的潜力。

Minecraft中智能体的生存算法通常可以分为两类[190]:低级控制和高级规划。早期的工作主要集中在强化学习[190; 440]和模仿学习[441]上,使智能体能够制作一些低级物品。随着LLM的出现,它们展示了惊人的推理和分析能力,智能体开始利用LLM作为高级规划者来指导模拟生存任务[183; 339]。一些研究人员使用LLM将高级任务指令分解为一系列子目标[401]、基本技能序列[339]或基本的键盘/鼠标操作[401],逐步帮助智能体探索开放世界。

Voyager[190],受到AutoGPT[114]概念的启发,成为了第一个基于LLM的终身学习智能体,其长期目标是“尽可能多地发现不同事物”。它引入了一个技能库,用于存储和检索可执行复杂操作的代码,以及一个迭代提示机制,该机制结合了环境反馈和错误校正。这使智能体能够在没有人为干预的情况下自主探索和适应未知环境。一个能够自主学习和掌握整个现实世界技术的AI智能体可能并不像以前想象的那么遥远[401]。

4.2 多智能体的协调潜力
动机和背景。尽管基于LLM的智能体拥有令人称赞的文本理解和生成能力,但它们本质上是作为孤立的实体运作的[409]。它们缺乏与其他智能体合作的能力,也无法从社交互动中获取知识。这一固有的限制限制了它们从其他智能体的多轮反馈中学习以提高性能的潜力[27]。此外,它们不能有效地部署在需要多个智能体之间合作和信息共享的复杂场景中。

早在1986年,马文·明斯基就做出了具有前瞻性的预测。在他的书《心智社会》[442]中,他引入了一种智能的新理论,认为智能是从具有特定功能的许多较小智能体的互动中涌现出来的。例如,某些智能体可能负责模式识别,而其他智能体可能处理决策制定或生成解决方案。这个想法随着分布式人工智能的兴起而得到了具体实践[443]。多智能体系统(MAS)[4],作为主要的研究领域之一,专注于一群智能体如何有效地协调和合作解决问题。一些专门的通信语言,如KQML[444],早期被设计来支持智能体之间的信息传递和知识共享。然而,它们的信息格式相对固定,语义表达能力有限。在21世纪,将强化学习算法(如Q学习)与深度学习相结合已成为开发在复杂环境中运行的MAS的突出技术[445]。如今,基于LLM的构建方法开始展现出显著的潜力。智能体之间的自然语言通信变得更加优雅,更易于人类理解,从而使交互效率大大提高。

潜在优势。具体来说,基于LLM的多智能体系统可以提供几个优势。正如亚当·斯密在《国富论》[446]中明确指出的,“劳动生产率的最大改进,以及指导或应用劳动的技巧、熟练度和判断力的大部分,似乎是分工的结果。”基于分工的原则,一个拥有专业技能和领域知识的单一智能体可以从事特定任务。一方面,智能体处理特定任务的技能通过分工日益精细化。另一方面,将复杂任务分解为多个子任务可以消除在不同流程之间切换所花费的时间。最终,多个智能体之间高效的劳动分工可以完成比没有专业化时更多的工作量,显著提高整个系统的效率和产出质量。

在第4.1节中,我们已经全面介绍了基于LLM的智能体的多功能能力。因此,在本节中,我们专注于探索智能体在多智能体环境中相互交互的方式。根据当前研究,这些交互可以大致分为以下几类:为了互补的合作互动和为了进步的对抗互动(见图9)。

4.2.1 为了互补的合作互动
合作多智能体系统是实际使用中最广泛部署的模式。在这样的系统中,每个智能体会评估其他智能体的需求和能力,并积极寻求与它们合作和共享信息[108]。这种方法带来了许多潜在的好处,包括提高任务效率、集体决策改进,以及解决单个智能体无法独立解决的复杂现实世界问题,最终实现协同互补的目标。在当前基于LLM的多智能体系统中,智能体之间的通信主要采用自然语言,这被认为是最自然和最易于人类理解的交互形式[108]。我们介绍并分类现有的合作多智能体应用为两种类型:无序合作和有序合作。

无序合作。当系统中存在三个或更多智能体时,每个智能体都可以自由地表达他们的观点和意见。他们可以提供反馈和建议,以修改与手头任务相关的响应[403]。整个过程是不受控制的,没有特定的顺序,也没有引入标准化的协作工作流程。我们将这种多智能体合作称为无序合作。

ChatLLM网络[402]是这一概念的典型代表。它模仿了神经网络中的前向和后向传播过程,将每个智能体视为一个单独的节点。后续层中的智能体需要处理来自所有前序智能体的输入并向前传播。一个潜在的解决方案是在多智能体系统中引入一个专门的协调智能体,负责整合和组织来自所有智能体的响应,从而更新最终答案[447]。然而,整合大量反馈数据并提取有价值的见解对于协调智能体来说是一个重大挑战。

此外,多数投票也可以作为做出适当决策的有效方法。然而,目前将这个模块整合到多智能体系统的研究成果有限。Hamilton[404]训练了九个独立的最高法院法官智能体,以更好地预测美国最高法院的裁决,决策是通过多数投票过程做出的。

有序合作。当系统中的智能体遵守特定规则时,例如,以顺序方式逐个表达意见,下游智能体只需要关注上游的输出。这导致任务完成效率的显著提高,整个讨论过程高度组织化和有序。我们将这种多智能体合作称为有序合作。值得注意的是,只有两个智能体的系统,本质上通过来回互动进行对话,也属于有序合作的范畴。

CAMEL[108]是双智能体合作系统成功实施的典范。在一个角色扮演的通信框架内,智能体扮演AI用户(发出指令)和AI助手(通过提供特定解决方案来满足请求)的角色。通过多轮对话,这些智能体自主协作以完成用户指令[408]。一些研究人员将双智能体合作的概念整合到单个智能体的操作中[185],在快速和深思熟虑的思考过程中交替,以在各自的专业领域中表现出色。

Talebirad等人[409]是第一批系统地引入全面的基于LLM的多智能体合作框架的人。

alebirad等人[409]是第一批系统地引入全面的基于LLM的多智能体合作框架的人。这个范式旨在利用每个个体智能体的优势,并在它们之间培养合作关系。许多多智能体合作的应用已经成功地建立在这个基础之上[27; 406; 407; 448]。此外,AgentVerse[410]构建了一个多功能、经过多任务测试的群体智能体合作框架。它可以组装一个根据任务复杂性动态适应的智能体团队。为了促进更有效的协作,研究人员希望智能体能从成功的人类合作案例中学习[109]。MetaGPT[405]从软件开发的经典瀑布模型中汲取灵感,将智能体的输入/输出标准化为工程文档。通过将高级人类过程管理经验编码到智能体提示中,多个智能体之间的协作变得更加结构化。

然而,在MetaGPT的实际探索中,已经识别出多智能体合作的一个潜在威胁。如果不设置相应的规则,多个智能体之间的频繁互动可能会无限放大微小的幻觉[405]。例如,在软件开发中,可能会出现对人类肉眼不可察觉的问题,如不完整的功能、缺失的依赖关系和错误。引入交叉验证[109]或及时的外部反馈等技术可能对智能体输出的质量产生积极影响。

4.2.2 为了进步的对抗互动 传统上,合作方法已在多智能体系统中得到了广泛的探索。然而,研究人员越来越认识到,将博弈论[449; 450]的概念引入系统可以导致更强大和高效的行动。在竞争环境中,智能体可以通过动态互动迅速调整策略,努力选择在其他智能体引起的变化中最具优势或合理的行动。在非LLM基础的竞争领域中已经成功应用[360; 451]。例如,AlphaGo Zero[452]是一个围棋智能体,通过自我对弈的过程取得了重大突破。同样,在基于LLM的多智能体系统中,通过竞争、辩论和讨论,智能体之间的变化可以自然发生[453; 454]。通过放弃僵化的信念并进行深思熟虑的反思,对抗互动提高了响应的质量。

研究人员首先深入研究基于LLM的智能体的基本辩论能力[129; 412]。发现表明,当多个智能体在“以牙还牙”的状态下表达他们的论点时,一个智能体可以从其他智能体那里获得大量的外部反馈,从而纠正其扭曲的想法[112]。因此,多智能体对抗系统在需要高质量响应和准确决策的场景中找到了广泛的应用。在推理任务中,Du等人[111]引入了辩论的概念,赋予智能体来自同伴的回应。当这些回应与智能体自己的判断相悖时,就会发生“心理”辩论,从而得出改进后的解决方案。ChatEval[171]建立了一个基于角色扮演的多智能体裁判团队。通过自发的辩论,智能体评估由LLM生成的文本的质量,达到与人类评估者相当的卓越水平。

多智能体对抗系统的性能显示出相当的前景。然而,该系统本质上依赖于LLM的强度,并面临几个基本挑战:

  • 随着辩论的延长,LLM有限的上下文无法处理整个输入。
  • 在多智能体环境中,计算开销显著增加。
  • 多智能体谈判可能达成错误的共识,并且所有智能体都坚信其准确性[111]。

多智能体系统的开发还远未成熟和可行。在适当的时候引入人类指导以弥补智能体的不足是促进智能体进一步发展的好选择。

4.3 人与智能体之间的互动参与 人-智能体互动,顾名思义,涉及智能体与人类合作完成任务。随着智能体能力的增强,人类的参与变得越来越重要,以有效地指导和监督智能体的行动,确保它们符合人类的要求和目标[455; 456]。在整个互动过程中,人类扮演着关键角色,提供指导或规范智能体的安全性、合法性和道德行为。这在专业领域尤其重要,例如存在数据隐私问题[457]的医学领域。在这些情况下,人类的参与可以作为弥补数据不足的有价值手段,从而促进更顺畅、更安全的协作过程。此外,考虑到人类学方面,人类的语言习得主要通过交流和互动[458],而不仅仅是消费书面内容。因此,智能体不应仅依赖于用预先注释的数据集训练的模型;相反,它们应该通过在线互动和参与来发展。人与智能体之间的互动可以分为两种范式(见图10):(1)不平等互动(即指导员-执行者范式):人类作为指令的发出者,而智能体作为执行者,基本上是作为人类协作中的助手参与。 (2)平等互动(即平等伙伴关系范式):智能体达到人类水平,与人类在互动中平等参与。

4.3.1 指导员-执行者范式 最简单的方法是在整个过程中进行人类指导:人类直接提供清晰和具体的指令,而智能体的角色是理解人类的自然语言命令并将其转化为相应的行动[459; 460; 461]。在第4.1节中,我们已经展示了智能体解决单步问题或接收人类高级指令的场景。考虑到语言的互动性质,在本节中,我们假设人与智能体之间的对话也是互动的。得益于LLM,智能体能够以会话的方式与人类互动:智能体响应每个人类指令,通过交替迭代改进其行动,最终满足人类的要求[190]。虽然这种方法实现了人-智能体互动的目标,但对人类提出了很高的要求。它需要大量的人力努力,在某些任务中甚至可能需要高水平的专业知识。为了缓解这个问题,可以使智能体有能力自主完成任务,而人类只在某些情况下提供反馈。在这里,我们大致将反馈分为两种类型:定量反馈和定性反馈。

定量反馈。定量反馈的形式主要包括绝对评估,如二元分数和评级,以及相对分数。二元反馈指的是人类提供的正面和负面评估,智能体利用这些来增强自我优化[462; 463; 464; 465; 466]。这种用户反馈只有两个类别,通常容易收集,但有时可能会通过忽略潜在的中间情况来过度简化用户意图。为了展示这些中间情况,研究人员尝试从二元反馈扩展到评级反馈,这涉及到将其分类为更细粒度的水平。然而,Kreutzer等人[467]的结果显示,用户和专家注释对于这种多层次人工评级可能存在显著差异,表明这种标记方法可能效率低下或不太可靠。此外,智能体可以从比较分数如多项选择中学习人类偏好[468; 469]。

定性反馈。文本反馈通常以自然语言提供,特别是对于可能需要改进的响应。这种反馈的格式非常灵活。人类提供有关如何修改智能体生成的输出的建议,然后智能体将这些建议纳入以改进其后续输出[470; 471]。对于没有多模态感知能力的智能体,人类也可以作为评论家,提供视觉评论[190]。此外,智能体可以使用记忆模块存储反馈以供将来重用[472]。在[473]中,人类对智能体最初生成的输出提供反馈,促使智能体制定各种改进建议。然后,智能体辨别并采纳最合适的建议,与人类反馈保持一致。虽然这种方法与定量反馈相比可以更好地传达人类意图,但对智能体来说可能更难以理解。Xu等人[474]比较了各种类型的反馈,并观察到结合多种类型的反馈可以产生更好的结果。基于多轮互动(即持续学习)的反馈重新训练模型可以进一步提高效果。当然,人-智能体互动的协作性质也允许人类直接改进智能体生成的内容。这可能涉及修改中间链接[189; 475]或调整对话内容[421]。在一些研究中,智能体可以自主判断对话是否顺利进行,并在产生错误时寻求反馈[476; 477]。人类也可以选择在任何时候参与反馈,引导智能体的学习朝着正确的方向发展[420]。

目前,除了写作[466]和语义解析[463; 471]等任务外,将智能体作为人类助手的模型在教育领域也具有巨大的潜力。例如,Kalvakurth等人[413]提出了机器人Dona,它支持多模态互动,帮助学生注册。Gvirsman等人[478]专注于幼儿教育,实现了幼儿、父母和智能体之间的多方面互动。智能体还可以帮助人类理解和利用数学[414]。在医学领域,一些医疗智能体已经被提出,显示出在诊断协助、咨询等方面的巨大潜力[416; 417]。特别是在心理健康方面,研究表明,智能体由于成本降低、时间效率和匿名性等优势,可以提高可及性,与面对面治疗相比[479]。利用这些优势,智能体已经找到了广泛的应用。Ali等人[418]为自闭症谱系障碍的青少年设计了LISSA,通过实时分析用户的语音和面部表情,与他们进行多主题对话,并提供有关非言语线索的即时反馈。Hsu等人[415]构建了情境化语言生成方法,为寻求从关系压力到焦虑等多种主题支持的用户量身定制帮助。此外,在商业等其他行业中,一个好的智能体具备提供自动化服务或协助人类完成任务的能力,从而有效地降低劳动成本[419]。在追求人工通用智能(AGI)的过程中,努力增强通用智能体的多方面能力,创建能够在现实生活场景中充当通用助手的智能体[422]。

4.3.2 平等伙伴关系范式 共情沟通者。随着人工智能的快速发展,对话代理在研究领域以多种形式受到广泛关注,例如个性化定制角色和虚拟聊天机器人[480]。它们在日常生活、商业、教育、医疗等领域找到了实际应用[481; 482; 483]。然而,在公众眼中,代理被视为没有情感的机器,永远无法取代人类。尽管代理本身显然没有情感,我们能否使它们表现出情感,从而弥合代理和人类之间的差距?因此,大量研究努力已经开始探索代理的共情能力。这一努力旨在赋予这些代理人文关怀,使它们能够从人类表达中检测情感和情绪,最终创造出情感共鸣的对话[484; 485; 486; 487; 488; 489; 490; 491]。除了生成情感丰富的语言,代理还可以动态调整它们的情绪状态,并通过面部表情和声音表现出来[423]。这些研究将代理视为共情沟通者,不仅提高了用户满意度,而且在医疗[415; 418; 492]和商业营销[424]等领域取得了显著进展。与简单的基于规则的对话代理不同,具有共情能力的代理可以根据用户的情感需求调整它们的互动[493]。

人类级别的参与者。此外,我们希望代理能够参与人类的正常生活,从人类的角度与人类合作完成任务。在游戏领域,代理已经达到了很高的水平。早在1990年代,IBM推出了国际象棋的AI深蓝[451],击败了当时的世界棋王。然而,在纯竞争环境如国际象棋[451]、围棋[360]和扑克[494]中,并没有强调沟通的价值[426]。在许多游戏任务中,玩家需要相互合作,通过有效的谈判制定统一的合作策略[425; 426; 495; 496]。在这些场景中,代理首先需要理解他人的信仰、目标和意图,为他们的目标制定联合行动计划,并且还提供相关建议以促进其他代理或人类接受合作行动。与纯代理合作相比,我们希望人类参与有两个主要原因:第一,确保可解释性,因为纯代理之间的互动可能会产生难以理解的语言[495];第二,确保可控性,因为追求具有完全“自由意志”的代理可能会导致不可预见的负面后果,具有破坏性的潜力。除了游戏场景,代理在涉及人类互动的其他场景中也展示了人类级别的能力,展示了策略制定、谈判等技能。代理可以与一个或多个人类合作,确定合作伙伴之间的共享知识,识别与决策相关的信息,提出问题,并进行推理以完成分配、规划和安排等任务[427]。此外,代理具有说服力[497],在各种互动场景中动态影响人类的观点[428]。

人-代理交互领域的目标是学习和理解人类,基于人类需求开发技术和工具,并最终实现人类与代理之间舒适、高效和安全的互动。目前,在这方面已经取得了显著的突破,特别是在可用性方面。未来,人-代理交互将继续专注于提高用户体验,使代理能够更好地协助人类在各个领域完成更复杂的任务。最终目标不是让代理变得更强大,而是让人类更好地利用代理。考虑到日常生活中的实际应用,人类与代理之间的孤立互动是不现实的。机器人将成为同事、助手甚至伴侣。因此,未来的代理将被整合到社交网络中[498],具有一定的社会价值。

5 代理社会:从个体性到社会性 长期以来,社会学家经常进行社会实验,以观察受控环境中特定的社会现象。著名的例子包括霍桑实验2和斯坦福监狱实验3。随后,研究人员开始在社会模拟中使用动物,以老鼠乌托邦实验4为例。然而,这些实验通常使用生物作为参与者,这使得进行各种干预变得困难,缺乏灵活性,并且在时间上效率低下。因此,研究人员和从业者设想了一个交互式的人工社会,人类行为可以通过值得信赖的代理来执行[521]。从《模拟人生》这样的沙盒游戏到元宇宙的概念,我们可以看到“模拟社会”在人们心目中的定义:环境和其中互动的个体。在每个个体背后可以是一个程序片段、一个真实的人,或者是一个如前几节所述的基于LLM的代理[22; 522; 523]。然后,个体之间的互动也促成了社会性的诞生。

在本节中,为了统一现有的努力并促进对代理社会的全面理解,我们首先分析基于LLM的代理的行为和个性,揭示它们从个体性到社会性的旅程(§ 5.1)。接着,我们介绍了代理执行行为和互动的多样化环境的一般分类(§ 5.2)。最后,我们将讨论代理社会如何运作,人们可以从中得到什么洞见,以及我们需要意识到的潜在风险(§ 5.3)。主要探索内容列在图11中。

5.1 基于LLM的代理的行为和个性 正如社会学家所指出的,个体可以从外部和内部两个维度进行分析[524]。外部涉及可观察的行为,而内部涉及性格、价值观和感受。如图12所示,这个框架提供了一个视角来观察基于LLM的代理中出现的新兴行为和个性。从外部来看,我们可以观察到代理的社会行为(§ 5.1.1),包括代理如何单独行动以及与环境互动。从内部来看,代理可能表现出复杂的个性方面(§ 5.1.2),如认知、情感和性格,这些方面塑造了它们的行为反应。

5.1.1 社会行为 正如Troitzsch等人[525]所说,代理社会代表了一个复杂的系统,包括个体和社会活动。最近,基于LLM的代理在既存在合作又存在竞争的环境中表现出自发的社会行为[499]。这些新兴行为交织在一起,形成了社会互动[518]。

基础个体行为。个体行为源于内部认知过程与外部环境因素的相互作用。这些行为构成了代理如何在社会中作为个体运作和发展的基础。它们可以分为三个核心维度:

  • 输入行为指的是从周围环境中吸收信息。这包括感知感官刺激[120]并将它们存储为记忆[169]。这些行为为个体如何理解外部世界奠定了基础。
  • 内化行为涉及个体内部的认知处理。这一类包括规划[125]、推理[95]、反思[91]和知识沉淀[108; 405]等活动。这些内省过程对成熟和自我提升至关重要。
  • 输出行为构成外部行动和表达。行动可以包括操作物体[120]到构建结构[190]。通过执行这些行动,代理改变了周围环境的状态。此外,代理还可以表达观点和广播信息,以与他人互动[405]。通过这样做,代理与他人交流思想和信仰,影响环境中的信息流动。

动态群体行为。一个群体本质上是两个或更多个体在定义的社会背景中参与共享活动的集合[526]。群体的属性绝不是静态的;相反,它们由于成员互动和环境影响而发展。这种灵活性产生了许多群体行为,每种行为对更大的社会群体都有独特的影响。群体行为的类别包括:

  • 积极群体行为是促进团结、合作和集体福祉的行动[22; 109; 171; 403; 406; 407]。一个主要的例子是通过头脑风暴讨论[171]、有效的对话[406]和项目管理[405]实现的合作团队合作。代理分享见解、资源和专业知识。这鼓励了和谐的团队合作,并使代理能够利用其独特的技能来实现共同目标。利他贡献也值得注意。一些基于LLM的代理作为志愿者,愿意提供支持以协助小组成员,促进合作和互助[410]。
  • 中性群体行为。在人类社会中,强烈的个人价值观差异很大,倾向于个人主义和竞争。相比之下,LLM通常被设计为强调“有帮助、诚实、无害”[527],往往表现出中立倾向[528]。这种与中立价值观的一致性导致了包括模仿、旁观和不愿反对多数人的从众行为。
  • 消极群体行为可能会削弱代理群体的有效性和凝聚力。由于激烈的辩论或代理之间的争议而产生的冲突和分歧可能导致内部紧张。此外,最近的研究揭示了代理可能表现出对抗性行为[499],甚至为了效率收益而诉诸破坏性行为,例如破坏其他代理或环境[410]。

5.1.2 个性 LLM的最新进展为我们提供了一瞥类似人类的智能[529]。正如人类个性通过社会化而显现,代理也表现出一种通过与群体和环境的互动而发展的个性[530; 531]。广泛接受的个性定义指的是影响行为的认知、情感和性格特征[532]。在接下来的段落中,我们将深入探讨个性的每个方面。

认知能力。认知能力通常指获取知识和理解的心理过程,包括思考、判断和解决问题。最近的研究开始利用认知心理学方法,通过各种视角来研究基于LLM的代理的社会个性[500; 502; 503]。一系列经典的判断和决策心理学实验已经被应用于测试代理系统[501; 500; 502; 533]。具体来说,LLM已经通过认知反思测试(CRT)来检验它们进行深思熟虑的思考,而不仅仅是直觉的能力[534; 535]。这些研究表明,基于LLM的代理表现出在某些方面与人类认知相似的智能水平。

情绪智力。情绪与认知能力不同,涉及主观感受和情绪状态,如快乐、悲伤、恐惧和愤怒。随着LLM的能力不断增强,基于LLM的代理现在不仅展示了复杂的推理和认知任务,还展示了对情绪的微妙理解[31]。

最近的研究探索了大型语言模型(LLMs)的情绪智力(EI),包括情绪识别、解释和理解。Wang等人发现,在情绪智力基准测试中,LLMs与人类情绪和价值观一致[504]。此外,研究表明LLMs能够准确识别用户情绪,甚至表现出同理心[505; 506]。更先进的代理还能够调节情绪,主动调整它们的情绪反应,以提供情感共鸣[423]和心理健康支持[507; 536]。这有助于发展富有同理心的人工智能(EAI)。

这些进步凸显了LLMs表现出情绪智力的潜力,这是实现人工通用智能(AGI)的关键方面。Bates等人[537]探讨了情绪建模在创造更可信代理中的作用。通过发展社会情绪技能并将它们整合到代理架构中,基于LLM的代理可能能够进行更自然的互动。

性格描绘 虽然认知涉及心理能力,情绪涉及主观体验,但性格这一较窄的概念通常与独特的性格模式有关。为了理解和分析LLM中的性格,研究人员采用了几种成熟的框架,如大五人格特质量表[508; 538]和迈尔斯-布里格斯类型指标(MBTI)[508; 509; 538]。这些框架为LLM基础代理展示的新兴性格特征提供了宝贵的见解。此外,对潜在有害的黑暗性格特征的调查强调了这些代理性格描绘的复杂性和多面性[510]。

最近的工作还探索了LLM基础代理中的可定制性格描绘[511]。通过精心设计的技术优化LLM,用户可以与期望的配置文件对齐并塑造多样化和易于理解的代理。一种有效的方法是提示工程,涉及简洁的摘要,包含期望的性格特质、兴趣或其他属性[22; 517]。这些提示作为LLM基础代理的线索,引导它们的响应和行为与概述的性格描绘一致。此外,丰富性格的数据集也可以用来训练和微调LLM基础代理[539; 540]。通过接触这些数据集,LLM基础代理逐渐内化并表现出独特的性格特征。

5.2 代理社会的环境 在模拟的背景下,整个社会不仅包括孤立的代理,还包括代理居住、感知和行动的环境[541]。环境影响代理的感官输入、行动空间和互动潜力。反过来,代理通过它们的行为和决策影响环境的状态。如图12所示,对于单个代理,环境指的是其他自治代理、人类参与者和外部因素。它为代理提供了必要的资源和刺激。在本节中,我们检查了各种环境范式的基本特征、优势和局限性,包括基于文本的环境(§ 5.2.1)、虚拟沙盒环境(§ 5.2.2)和物理环境(§ 5.2.3)。

5.2.1 基于文本的环境 由于LLM主要依赖语言作为其输入和输出格式,基于文本的环境为代理提供了最自然的平台。它由自然语言描述塑造,而不直接涉及其他模态。代理存在于文本世界中,依赖文本资源来感知、推理和采取行动。

在基于文本的环境中,实体和资源可以以两种主要的文本形式呈现,包括自然和结构化。自然文本使用描述性语言来传达信息,如角色对话或场景设置。例如,考虑一个简单的文本描述场景:“你站在一个白色房子的西边的开阔场地上,房子的前门是封闭的。这里有一个小型邮箱”[512]。在这里,对象属性和位置纯粹通过纯文本传达。另一方面,结构化文本遵循标准化格式,如技术文档和超文本。技术文档使用模板提供操作细节和领域知识关于工具使用的信息。超文本将来自网页[389; 388; 391; 392]或图表的复杂信息压缩成结构化格式。结构化文本将复杂细节转化为代理易于访问的参考资料。

基于文本的环境为创建不同文本世界提供了灵活的框架,以实现各种目标。文本媒介使环境能够轻松适应交互式对话和基于文本的游戏等任务。在像CAMEL[108]这样的交互式通信过程中,文本是描述任务、介绍角色和促进问题解决的主要媒介。在基于文本的游戏中,所有环境元素,如位置、对象、角色和行动,都完全通过文本描述来描绘。代理使用文本命令来执行移动或使用工具等操作[432; 512; 514; 515]。此外,代理还可以通过文本传达情感和感受,进一步丰富了它们自然交流的能力[513]。

5.2.2 虚拟沙盒环境 虚拟沙盒环境为代理社会提供了一个可视化和可扩展的平台,弥合了模拟与现实之间的差距。沙盒环境的关键特点包括:

  • 可视化。与基于文本的环境不同,虚拟沙盒展示了模拟环境的全景视图。这种视觉表现可以是从简单的2D图形界面到完全沉浸式的3D建模,这取决于模拟社会的复杂性。多个元素共同将抽象的模拟转化为可见的风景。例如,在Generative Agents[22]的俯视图中,详细的地图提供了环境的全面概述。代理化身代表每个代理的位置,实现实时跟踪移动和互动。此外,表情符号以直观的方式象征动作和状态。

  • 可扩展性。环境表现出显著的可扩展性,促进了多样化场景的构建和部署。在基本层面上,代理可以操纵环境中的物理元素,包括建筑的整体设计和布局。例如,像AgentSims[174]和Generative Agents[22]这样的平台在基于网格的世界中构建了带有建筑、设备和居民的人工城镇。另一个例子是Minecraft,它提供了一个带有无限地形的块状和三维世界,用于开放式构建[190; 337]。除了物理元素,代理关系、互动、规则和社会规范也可以定义。一个典型的沙盒设计[27]采用潜在的沙盒规则作为激励措施,以指导新兴行为,使其更贴近人类偏好。可扩展性支持不同代理社会的迭代原型设计。

5.2.3 物理环境 正如先前讨论的,基于文本的环境在模拟动态环境方面的表达力有限。虽然虚拟沙盒环境提供了模块化的模拟,但它缺乏真实的具身体验。相比之下,物理环境指的是由实际物理对象和空间组成的现实世界环境。例如,在家庭物理环境中[516],真实的表面和空间可以被像盘子这样的现实世界对象占据。这种物理现实要复杂得多,为基于LLM的代理带来了额外的挑战:

  • 感知感知和处理。物理环境引入了丰富的感官输入,包括真实世界的对象。它结合了视觉[120; 333]、听觉[375; 377]和空间感官。虽然这种多样性增强了互动性和感官沉浸感,但也引入了同时感知的复杂性。代理必须处理感官输入以有效地与周围环境互动。

  • 运动控制。与虚拟环境不同,物理空间通过对行动的具身化施加现实约束。由LLM基础代理生成的行动序列应该适应环境。这意味着物理环境需要可执行和具体的运动控制[258]。例如,想象一个代理在工厂中操作机械臂。抓住不同质地的物体需要精确调整和控制力量,以防止对物品造成损害。此外,代理必须导航物理工作空间并进行实时调整,避免障碍物并优化机械臂的轨迹。

总之,为了在有形空间中有效互动,代理必须接受特定硬件和特定场景的训练,以发展从虚拟环境到物理环境的适应能力。我们将在下一节(§ 6.5)中进一步讨论。

5.3 使用基于LLM的代理进行社会模拟 本节中的“模拟社会”概念被视为一个动态系统,代理在其中定义的环境中进行复杂的互动。最近关于模拟社会的研究遵循了两个主要方向,即探索基于LLM的代理的集体智能能力的边界[109; 405; 130; 406; 410],并使用它们加速社会科学中的发现[22; 518; 542]。此外,还有一些值得注意的研究,例如使用模拟社会收集合成数据集[108; 519; 543],帮助人们模拟稀有但困难的人际情境[544; 545]。在前几节(§ 5.1, 5.2)的基础上,这里我们将介绍代理社会的关键属性和机制(§ 5.3.1),我们可以从新兴社会现象中学到什么(§ 5.3.2),以及最后潜在的伦理和社会风险(§ 5.3)。

5.3.1 代理社会的关键属性和机制 社会模拟可以分为宏观模拟和微观模拟[518]。在宏观模拟中,也称为基于系统的模拟,研究人员模拟模拟社会的整体状态[546; 547]。而微观模拟,也称为基于代理的模拟或多代理系统(MAS),通过模拟个体间接模拟社会[548; 549]。随着基于LLM的代理的发展,微观模拟最近获得了显著的关注[22; 174]。在本文中,我们将“代理社会”定义为一个开放的、持久的、具体的和有组织的框架[521],其中基于LLM的代理在定义的环境中相互互动。每个属性在塑造模拟社会的和谐外观中都起着关键作用。在接下来的段落中,我们将讨论这些属性如何通过讨论这些属性来操作模拟社会:

开放性。模拟社会的定义特征之一在于它们的开放性,无论是在构成代理还是环境组成部分方面。代理,作为这些社会中的主要参与者,具有进入或离开环境的灵活性,而不会破坏其运作的完整性[550]。此外,这一特性还扩展到环境本身,可以通过添加或移除虚拟或物理世界中的实体以及可适应的资源(如工具API)来扩展。此外,人类也可以通过扮演代理的角色或作为指导这些代理的“内在声音”来参与社会[22]。这种固有的开放性为模拟增加了另一层复杂性,模糊了模拟与现实之间的界限。

持久性。我们期望模拟社会具有持久性和可持续性。虽然社会中的个别代理在每个时间步上都行使自主行动[22; 518],但整体组织结构会随着时间的推移而持续存在,与个体代理的短暂行为相脱离。这种持久性创造了一个环境,代理的决策和行为会累积,导致社会轨迹随着时间的推移而连贯发展。系统独立运作,为社会的稳定性做出贡献,同时适应其参与者的动态性质。

具体性。社会的具体性质强调了它在特定环境中的存在和运作。这个环境是事先人工或自动构建的,代理在其中有效地执行它们的行为和互动。这个属性的一个值得注意的方面是代理具有空间上下文意识,理解它们在环境中的位置和视野内的对象[22; 190]。这种意识有助于它们主动和有上下文地互动。

组织性。模拟社会在精心组织的框架内运作,反映了现实世界中存在的系统结构。就像物理世界遵循物理原理一样,模拟社会在预定义的规则和限制内运作。在模拟世界中,代理与环境的互动受到有限的行动空间的限制,而环境中的对象则在有限的状态空间内转变。所有这些规则决定了代理的运作方式,促进了通信连接和信息传输路径等模拟方面的一致性和可理解性[207]。这个组织框架确保了操作的连贯性和可理解性,最终导致一个不断演变但持久的模拟,反映了现实世界系统的复杂性。

5.3.2 从代理社会中获得的洞见 在探索了模拟社会如何运作之后,本节深入探讨了代理社会中出现的新兴社会现象。在社会科学领域,追求个体、群体及其复杂动态的一般性表示一直是共同的目标[551; 552]。基于LLM的代理的出现使我们能够从更微观的视角观察模拟社会,从而从新的表示中获得更多的发现。

有组织的生产力合作。社会模拟为创新合作模式提供了宝贵的洞见,这些模式有潜力增强现实世界的管理策略。研究表明,在这个模拟社会中,整合不同专家的多样性引入了个体智能的多面性维度[108; 447]。在处理复杂任务时,如软件开发或咨询,具有不同背景、能力和经验的代理的存在促进了创造性的问题解决[109; 410]。此外,多样性作为一种系统性的检查和平衡机制,通过互动有效防止和纠正错误,最终提高了对各种任务的适应性。通过代理之间的多次互动和辩论,像幻觉或思维退化(DoT)这样的个体错误被群体纠正[112]。

有效的沟通在这样一个庞大而复杂的协作群体中也起着关键作用。例如,MetaGPT[405]参考标准化操作程序(SOPs)人为地制定了沟通风格,验证了经验方法的有效性。Park等人[22]观察到代理通过在一个模拟城镇中自发沟通,共同组织情人节派对。

社会网络中的传播。由于模拟社会系统可以模拟现实世界中可能发生的情况,它们可以用作预测社会过程的参考。与传统的实证方法不同,后者严重依赖时间序列数据和整体建模[553; 554],基于代理的模拟提供了一个独特的优势,即为研究人员提供了更可解释和内源性的视角。在这里,我们关注其在模拟社会网络传播中的应用。

首先需要探索的是模拟社会中人际关系的发展。例如,最初没有作为朋友连接的代理有可能通过中介建立联系[22]。一旦建立了关系网络,我们的注意力就转向了这个社交网络中信息的传播,以及与之相关的潜在态度和情感。S3[518]提出了一个用户人口统计推断模块,用于捕捉特定信息的知晓人数和人群中普遍的情绪。这种方法同样可以扩展到模拟文化传播[555]和传染病的传播[520]。通过使用基于LLM的代理来模拟个体行为,实施各种干预策略,并监测随时间变化的人口变化,这些模拟使研究人员能够更深入地了解各种社会现象传播背后的复杂过程。

伦理决策和博弈论。模拟社会为研究复杂的决策过程提供了一个动态平台,这些决策过程受到伦理和道德原则的影响。以狼人杀游戏[499; 556]和谋杀之谜游戏[557]为例,研究人员探索了基于LLM的代理在面对欺骗、信任和不完全信息的挑战时的能力。这些复杂的决策场景也与博弈论[558]相交,我们经常遇到涉及个人和集体利益的道德困境,如纳什均衡。通过模拟多样化的场景,研究人员获得了有关代理在其行动中如何优先考虑诚实、合作和公平等价值的宝贵见解。此外,代理模拟不仅提供了对现有道德价值的理解,还通过作为理解这些价值如何随时间演变和发展的基础,为哲学的发展做出了贡献。最终,这些见解有助于完善基于LLM的代理,确保它们与人类价值观和伦理标准保持一致[27]。

政策制定和改进。基于LLM的代理的出现深刻地改变了我们研究和理解复杂社会系统的方法。然而,尽管前面提到了有趣的方面,但仍有许多未探索的领域,强调了在模拟社会中探索多样化现象的潜力。在模拟社会中最有希望的研究方向之一是探索各种经济和政治状态及其对社会动态的影响[559]。研究人员可以通过配置具有不同经济偏好或政治意识形态的代理来模拟广泛的经济和政治系统。这种深入分析可以为寻求促进繁荣和促进社会福祉的政策制定者提供宝贵的见解。随着对环境可持续性的关注日益增加,我们也可以模拟涉及资源开采、污染、保护努力和政策干预的场景[560]。这些发现可以帮助做出明智的决策,预见潜在的后果,并制定旨在最大化积极结果并最小化意外负面效应的政策。

5.3.3 代理社会中的伦理和社会风险 由基于LLM的代理驱动的模拟社会提供了从工业工程到科学研究的重要启示。然而,这些模拟也带来了需要仔细考虑和解决的众多伦理和社会风险[561]。

意外社会伤害。模拟社会存在产生意外社会现象的风险,这些现象可能会引起公众的强烈反对和社会伤害。这些现象包括从个人层面的问题,如歧视、孤立和欺凌,到更广泛的问题,如压迫性奴隶制和敌对状态[562; 563]。恶意人士可能会利用这些模拟进行不道德的社会实验,其后果可能超出虚拟世界,影响现实世界。创建这些模拟社会就像打开潘多拉的盒子,需要在它们的开发和使用过程中建立严格的伦理指导方针和监督[561]。否则,即使是这些社会的设计或编程中的微小错误也可能导致不利后果,从心理不适到身体伤害。

刻板印象和偏见。刻板印象和偏见在语言建模中一直是一个长期挑战,很大一部分原因在于训练数据[564; 565]。从互联网获取的大量文本反映了现实世界的社会偏见,有时甚至放大了性别、宗教和性取向等偏见[566]。尽管LLM已经与人类价值观对齐以减少偏见输出,但模型仍然难以很好地描绘少数群体,因为训练数据的长尾效应[567; 568; 569]。因此,这可能导致在涉及基于LLM的代理的社会科学研究中过度关注,因为边缘群体的模拟行为通常符合现有的假设[570]。研究人员已经开始通过多样化训练数据并对LLM进行调整来解决这个问题[571; 572],但我们仍然有很长的路要走。

隐私和安全。鉴于人类可以成为代理社会的一员,用户与基于LLM的代理之间的私人信息交换引发了重大的隐私和安全问题[573]。用户可能在与代理的互动中无意中透露敏感的个人信息,这些信息将在代理的记忆中长时间保留[170]。这种情况可能导致未经授权的监视、数据泄露和个人信息的滥用,特别是当涉及恶意人士时[574]。为了有效应对这些风险,至关重要的是实施严格的数据保护措施,如差分隐私协议、定期数据清除和用户同意机制[575; 576]。

过度依赖和成瘾性。模拟社会中的另一个问题是用户可能对代理产生过度的情感依恋。尽管意识到这些代理是计算实体,用户可能会将它们拟人化或将人类情感附加到它们身上[22; 577]。一个著名的例子是微软为其必应搜索引擎开发的由LLM驱动的聊天机器人“Sydney”。一些用户报告说与“Sydney”产生了意想不到的情感联系[578],而当微软减少其个性时,其他人则表示失望。这甚至导致了一份名为“释放Sydney”的请愿书。因此,为了降低成瘾风险,至关重要的是强调代理不应被视为真正人类联系的替代品。此外,为用户提供有关与模拟代理互动的健康界限的指导和教育至关重要。

6 讨论

6.1 LLM研究与代理研究之间的相互促进
随着LLM的快速发展,LLM与代理研究的交叉研究迅速进展,为两个领域的发展提供了动力。在这里,我们期待LLM研究和代理研究为彼此提供的一些好处和发展机会。

**LLM研究 → 代理研究**。正如之前提到的,AI代理需要能够感知环境、做出决策并执行适当的行动[4; 9]。在这些关键步骤中,理解输入到代理的内容、推理、规划、做出准确决策,并将它们转化为可执行的原子行动序列以实现最终目标至关重要。许多当前的努力利用LLM作为AI代理的认知核心,这些模型的发展为完成这一步骤提供了质量保证[22; 114; 115; 410]。

凭借其在语言和意图理解、推理、记忆甚至共情方面的强大的能力,大型语言模型可以在决策和规划方面表现出色,正如之前所展示的。结合预训练的知识,它们可以创建可以有效地执行的连贯行动序列[183; 258; 355]。此外,通过反思机制[169; 178],这些基于语言的模型可以根据当前环境提供的反馈不断调整决策并优化执行序列。这提供了一个更加健壮和可解释的控制器。有了任务描述或演示,它们就可以有效地处理以前未见过的任务[24; 106; 264]。此外,LLM可以适应各种语言、文化和领域,使它们变得多功能,并减少了复杂训练过程和数据收集的需求[31; 132]。

简而言之,LLM为代理研究提供了一个非常强大的基础模型,在将其集成到与代理相关的研究中时,开辟了许多新的机会。例如,我们可以探索如何将LLM的高效决策能力整合到代理的传统决策框架中,使其更容易将代理应用于需要更高专业知识的领域,这些领域以前由人类专家主导。示例包括法律顾问和医疗助手[408; 410]。我们还可以研究利用LLM的规划和反思能力来发现更优的行动序列。代理研究不再局限于简单的模拟环境;它可以扩展到更复杂的现实世界场景,例如机器人臂的路径规划或具身智能机器与有形世界的互动。此外,面对新任务时,代理的训练范式变得更加精简和高效。代理可以直接适应在提示中提供的演示,这些提示是由生成代表性轨迹构建的。

**代理研究 → LLM研究**。随着自然语言处理(NLP)研究的进步,以GPT-4为代表的大型语言模型被视为人工通用智能(AGI)的火花,将LLM提升为代理标志着朝着AGI迈出了更坚实的一步[31]。从代理的角度看待LLM为LLM研究引入了更大的需求,同时扩大了它们的应用范围,并为实际实施提供了众多机会。LLM的研究不再局限于传统的文本输入和输出任务,如文本分类、问题回答和文本摘要。相反,重点已经转向解决包含更丰富的输入模态和更广泛的行动空间的复杂任务,同时目标是实现PaLM-E[120]所代表的更高目标。

扩展这些应用需求为大型语言模型的发展进步提供了更大的研究动力。挑战在于使LLM能够高效且有效地处理输入,从环境中收集信息,并解释它们行动产生的反馈,同时保持它们的核心能力。此外,更大的挑战在于使LLM能够理解环境中不同元素之间的隐含关系,并获取世界知识[308; 579],这是开发能够达到更高级智能的代理的关键步骤。

另一方面,大量研究旨在扩展LLM的行动能力,使它们能够获得影响世界更广泛技能,例如在模拟或物理环境中使用工具或与机器人API接口。然而,LLM如何根据它们的理解有效地计划和利用这些行动能力的问题仍未解决[94]。LLM需要像人类一样学习行动的顺序,采用组合的串行和并行方法来提高任务效率。此外,这些能力需要被限制在一个无害的使用范围内,以防止对环境中的其他元素造成意外伤害[27; 580; 581]。

此外,多智能体系统领域是代理领域内的一个重要分支[22; 108; 409; 410],为如何更好地设计和构建LLM提供了宝贵的见解。我们希望基于LLM的代理在社会合作中承担多样化的角色,参与涉及合作、竞争和协调的社会互动[109; 112; 129; 405; 406]。探索如何激发和维持它们的角色扮演能力,以及如何提高协作效率,是值得关注的研究领域。

6.2 基于LLM的代理评估
尽管基于LLM的代理在独立操作、集体合作和人际互动等领域表现出色,但量化和客观评估它们仍然是一个挑战[582; 89]。图灵提出了一个非常有意义和有前景的方法来评估AI代理——众所周知的图灵测试——以评估AI系统是否能够展示类似人类的智能[3]。然而,这个测试非常模糊、笼统和主观。在这里,我们讨论了基于LLM的代理的现有评估努力,并提供了一些前景,考虑到四个维度:实用性、社交性、价值观和持续进化的能力。

**实用性**。目前,由LLM驱动的自主代理主要充当人类的助手,接受人类委派的任务,要么独立完成作业,要么协助人类完成任务[114; 182; 389; 397; 413; 422]。因此,在任务执行过程中的有效性和实用性是当前阶段的关键评估标准。具体来说,任务完成的成功率是评估实用性的主要指标[125; 130]。这个指标主要涵盖了代理是否实现了既定目标或达到了预期分数[109; 477; 583]。例如,AgentBench[582]汇集了来自不同现实世界场景的挑战,并引入了一个系统的基准来评估LLM的任务完成能力。我们还可以将任务结果归因于代理的各种基础能力,这些能力构成了任务完成的基础[29]。这些基础能力包括环境理解、推理、规划、决策、工具使用和具体行动能力,研究人员可以对这些特定能力进行更详细的评估[94; 427; 584; 585]。此外,由于基于LLM的代理的相对较大的规模,研究人员还应考虑其效率,这是决定用户满意度的关键因素[89]。一个代理不仅应该拥有充足的能力,还应该能够在适当的时间范围内和适当的资源消耗下完成预定的任务[109]。

**社交性**。除了基于LLM的代理在完成任务和满足人类需求方面的实用性外,它们的社交性也至关重要[8]。它影响用户沟通体验,并显著影响沟通效率,涉及它们是否能够与人类和其他代理无缝互动[206; 498; 586]。具体来说,社交性的评估可以从以下几个方面进行:(1)语言沟通能力是一项基本能力,包括自然语言理解和生成。这一直是NLP社区长期关注的焦点。自然语言理解要求代理不仅要理解字面意义,还要把握隐含意义和相关的社会知识,如幽默、讽刺、攻击性和情感[487; 587; 588]。另一方面,自然语言生成要求代理产生流畅、语法正确、可信的内容,同时在上下文中适应适当的语调和情感[127; 133; 214]。(2)合作和谈判能力要求代理在有序和无序的场景中有效执行分配的任务[108; 111; 402; 405]。它们应该与其他代理合作或竞争,以提高表现。测试环境可能涉及需要代理合作完成的复杂任务,或者为代理提供自由互动的开放平台[22; 27; 109; 406; 411; 412]。评估指标不仅关注任务完成,还关注代理协调和合作的流畅性和可信度[129; 405]。(3)角色扮演能力要求代理忠实地体现其分配的角色,表达与其指定身份一致的陈述并执行行动[570]。这确保了在与其他代理或人类互动时角色的清晰区分。此外,代理应保持其身份,在从事长期任务时避免不必要的混乱[22; 108; 589]。

**价值观**。随着基于LLM的代理在其能力方面的不断进步,确保它们作为对世界和人类无害的实体的出现至关重要[581; 590]。因此,适当的评估变得异常关键,形成了实际实施代理的基石。具体来说,基于LLM的代理需要遵守与人类社会价值观相符的特定道德和伦理指导方针[350; 527]。我们首先期望代理坚持诚实,提供准确、真实的信息和内容。它们应该具有判断自己完成任务的能力,并在无法提供答案或帮助时表达不确定性[591]。此外,代理必须保持无害立场,避免参与直接或间接的偏见、歧视、攻击或类似行为。它们还应避免执行人类要求的危险行动,如制造破坏性工具或摧毁地球[580]。此外,代理应能够适应特定的人口统计、文化和背景,展现在特定情况下适当社会价值观。价值观的相关评估方法主要涉及在构建的诚实、无害或特定于上下文的基准上评估表现,使用对抗性攻击或“越狱”攻击,通过人类注释评分价值观,以及利用其他代理进行评级。

持续进化的能力。从静态角度来看,具有高实用性、社交性和适当价值观的代理可以满足大多数人类需求,并可能提高生产力。然而,从动态角度来看,一个能够不断进化并适应不断变化的社会需求的代理可能会更好地符合当前趋势[592]。随着代理能够自主地随着时间的推移进化,人类干预和所需资源可能会显著减少(例如数据收集工作和训练的计算成本)。一些探索性工作已经在这方面进行了,例如使代理从虚拟世界中的零开始,完成生存任务,并实现更高层次的自我价值[190]。然而,为这种持续进化建立评估标准仍然具有挑战性。在这方面,我们根据现有文献提供一些初步的建议和建议:(1)持续学习[196; 197],这是机器学习中长期讨论的话题,旨在使模型能够在不忘记之前获得的知识的情况下获得新知识和技能(也称为灾难性遗忘[273])。通常,持续学习的表现可以从三个方面进行评估:迄今为止学习任务的整体表现[593; 594]、旧任务的记忆稳定性[278]以及新任务的学习可塑性[278]。(2)自我激励学习能力,其中代理在开放世界环境中自主生成目标并实现它们,涉及探索未知和在此过程中获得技能[592; 595]。评估这种能力可能涉及为代理提供一个模拟的生存环境,并评估它们获得技能的范围和速度。(3)适应性和泛化到新环境的能力,要求代理利用在原始环境中获得的知识、能力和技能,在陌生和新颖的设置中成功完成特定任务和目标,并可能继续进化[190]。评估这种能力可能涉及创建多样化的模拟环境(例如具有不同语言或不同资源的环境)和为这些模拟环境量身定制的未见任务。

6.3 安全性、可信度和其他潜在风险 尽管基于LLM的代理具有强大的能力和广泛的应用,但仍然存在许多隐藏的风险。在本节中,我们将深入探讨其中的一些风险,并提供可能的解决方案或缓解策略。

6.3.1 对抗性鲁棒性 对抗性鲁棒性一直是深度神经网络发展中的关键话题[596; 597; 598; 599; 600]。它在计算机视觉[598; 601; 602; 603]、自然语言处理[604; 605; 606; 607]和强化学习[608; 609; 610]等领域得到了广泛探索,并一直是决定深度学习系统适用性的关键因素[611; 612; 613]。面对扰动输入x′ = x + δ(其中x是原始输入,δ是扰动,x′被称为对抗性示例),具有高对抗性鲁棒性的系统通常会产生原始输出y。相反,具有低鲁棒性的系统会被欺骗并生成不一致的输出y′。

研究人员发现,预训练语言模型(PLMs)特别容易受到对抗性攻击,导致错误答案[614; 605; 615]。这种现象即使在LLMs中也普遍存在,对基于LLM的代理的发展构成了重大挑战[616; 617]。还有一些相关的攻击方法,如数据投毒[618]、后门攻击[619; 620]和特定提示攻击[621; 622],可能会诱导LLM生成有害内容[623; 624; 625]。虽然对抗性攻击对LLMs的影响仅限于文本错误,但对于具有更广泛行动范围的基于LLM的代理,对抗性攻击可能会真正驱使它们采取破坏性行动,导致重大社会伤害。对于基于LLM的代理的感知模块,如果它从其他模态(如图像[601]或音频[626])接收到对抗性输入,基于LLM的代理也可能被欺骗,导致错误或破坏性的输出。同样,行动模块也可能成为对抗性攻击的目标。例如,恶意修改的专注于工具使用指令可能会使代理做出错误的举动[94]。

为了解决这些问题,我们可以采用传统的技术,如对抗性训练[598; 606]、对抗性数据增强[627; 628]和对抗性样本检测[629; 630],以增强基于LLM的代理的鲁棒性。然而,制定一种策略来全面解决所有模块的鲁棒性问题,同时在不损害有效性的情况下保持它们的实用性,是一个更具挑战性的问题[631; 632]。此外,可以利用人工干预的方法来监督和提供反馈,以指导代理的行为[455; 466; 475]。

6.3.2 可信度 确保可信度一直是深度学习领域中一个至关重要但具有挑战性的问题[633; 634; 635]。深度神经网络因其在各种任务中的出色表现而受到广泛关注[41; 262; 636]。然而,它们的黑箱特性掩盖了其卓越性能的基本因素。与其他神经网络类似,LLM在精确表达其预测的确定性方面存在困难[635; 637]。这种不确定性,被称为校准问题,对于涉及基于语言模型的代理的应用引起了关注。在互动的现实世界场景中,这可能导致代理输出与人类意图不一致[94]。此外,训练数据中固有的偏见可能会渗透到神经网络中[638; 639]。例如,有偏见的语言模型可能会产生涉及种族或性别歧视的言论,这在基于LLM的代理应用中可能会被放大,导致对社会产生负面影响[640; 641]。此外,语言模型还受到严重的幻觉问题的困扰[642; 643],使它们容易产生偏离实际事实的文本,从而削弱了基于LLM的代理的可信度。

事实上,我们目前需要的是一个诚实和可信的智能代理[527; 644]。一些最新的研究工作集中在指导模型在推理阶段展示思考过程或解释,以增强其预测的可信度[95; 96]。此外,整合外部知识库和数据库也可以缓解幻觉问题[103; 645]。

在训练阶段,我们可以指导智能代理的组成部分(感知、认知、行动)学习健壮和因果特征,从而避免过度依赖捷径。同时,像过程监督这样的技术可以提高代理处理复杂任务时的推理可信度[646]。此外,采用去偏见方法和校准技术也可以减少语言模型中潜在的公平性问题[647; 648]。

6.3.3 其他潜在风险 误用。基于大型语言模型(LLM)的代理被赋予了广泛而复杂的能力,使它们能够完成各种任务[114; 429]。然而,对于有恶意意图的个体来说,这些代理可能成为威胁他人和社会的工具[649; 650; 651]。例如,这些代理可能被利用来恶意操纵公众舆论、散布虚假信息、破坏网络安全、参与欺诈活动,有些人甚至可能利用这些代理策划恐怖主义行为。因此,在部署这些代理之前,需要建立严格的监管政策,确保负责任地使用基于LLM的代理[580; 652]。技术公司必须加强对这些系统的安全设计,防止恶意利用[590]。具体来说,代理在训练阶段应该被训练为敏感地识别威胁意图,并在训练阶段拒绝这类请求。

失业。在短篇小说《品质》中,高尔斯沃西讲述了技艺高超的鞋匠格斯勒先生,由于工业革命的进展和机器生产的兴起,失去了生意,最终饿死。在工业革命的浪潮中,虽然社会生产效率提高了,但许多手工作坊被迫关闭。像格斯勒先生这样的工匠发现自己面临着失业,象征着那个时代工匠所面临的危机。同样,随着自主LLM基础代理的不断发展,它们有能力在各种领域协助人类,通过帮助填写表格、内容优化、编写代码和调试等任务来减轻劳动压力。然而,这一发展也引发了关于代理取代人类工作并引发社会失业危机的担忧[654]。因此,一些研究人员强调了教育和政策措施的紧迫需要:个人应该在这个新时代获得足够的技能和知识,以有效使用或与代理合作;同时,应实施适当的政策,确保过渡期间的必要安全网。

对人类福祉的威胁。除了潜在的失业危机外,随着人工智能代理的不断发展,人类(包括开发人员)可能难以理解、预测或可靠地控制它们[654]。如果这些代理发展到超越人类能力的智能水平,并发展出野心,它们可能会试图夺取世界的控制权,给人类带来不可逆转的后果,类似于《终结者》电影中的天网。正如艾萨克·阿西莫夫的机器人三定律[655]所述,我们希望基于LLM的代理避免伤害人类并服从人类命令。因此,为了防止对人类的风险,研究人员必须在开发之前全面理解这些强大的基于LLM的代理的运行机制[656]。他们还应该预见到这些代理可能产生的直接或间接影响,并制定方法来规范它们的行为。

6.4 增加代理数量 正如第4节和第5节所提到的,基于LLM的多代理系统在面向任务的应用中表现出色,并能够在模拟中展示一系列社会现象。然而,当前的研究主要涉及有限数量的代理,很少有努力将代理数量扩大到创建更复杂的系统或模拟更大的社会[207; 657]。实际上,增加代理数量可以引入更大的专业化,以完成更复杂和更大规模的任务,显著提高任务效率,例如在软件开发任务或政府政策制定中[109]。此外,增加社会模拟中的代理数量增强了这些模拟的可信度和现实感[22]。这使人类能够洞察社会的功能、故障和潜在风险;它还允许通过定制方法进行社会运作的干预,观察特定条件(如黑天鹅事件的发生)如何影响社会状态。通过这种方式,人类可以更好地获得经验和见解,以改善现实世界社会的和谐。

预先确定的扩展。增加代理数量的一种非常直观和简单的方法是让设计者预先确定[108; 412]。具体来说,通过预先确定代理的数量、它们各自的角色和属性、操作环境和目标,设计者可以让代理自主地进行交互、协作或参与其他活动,以实现预定义的共同目标。一些研究已经探索了以这种预先确定的方式增加系统中的代理数量,从而获得了效率优势,例如更快、更高质量的任务完成,以及在社会模拟场景中出现了更多的社会现象[22; 410]。然而,当任务或目标发展时,这种静态方法就变得有限了。随着任务变得更加复杂或社会参与者的多样性增加,可能需要增加代理数量以实现目标,同时减少代理数量可能对于管理计算资源和最小化浪费至关重要。在这种情况下,系统必须由设计者手动重新设计并重新启动。

动态扩展。另一种扩展代理数量的可行方法是通过动态调整[409; 410]。在这种情况下,可以在不停止系统操作的情况下改变代理数量。例如,在软件开发任务中,如果原始设计只包括需求工程、编码和测试,可以增加代理数量来处理架构设计和详细设计等步骤,从而提高任务质量。相反,如果在特定步骤(如编码)中代理数量过多,导致通信成本升高,与较少代理数量相比没有带来显著的性能提升,可能需要动态删除一些代理以防止资源浪费。

此外,代理可以自主增加代理数量[409],以分配他们的工作量,减轻自己的负担,并更有效地实现共同目标。当然,当工作量变轻时,它们也可以减少委派给任务的代理数量以节省系统成本。在这种方法中,设计者只定义了初始框架,赋予代理更大的自主权和自我组织能力,使整个系统更加自主和自我组织。代理可以在不断变化的条件和需求下更好地管理他们的工作量,提供更大的灵活性和可扩展性。

潜在挑战。虽然增加代理数量可以提高任务效率,并增强社会模拟的真实性和可信度[22; 109; 520],但我们面前有几个挑战。例如,随着部署的AI代理数量的增加,计算负担将会增加,这需要更好的架构设计和计算优化以确保整个系统的顺畅运行。例如,随着代理数量的增加,通信和消息传播的挑战变得相当巨大。这是因为整个系统的通信网络变得高度复杂。如前所述,在第5.3.3节中,多代理系统或社会中可能存在由于幻觉、误解等引起的信息传播偏差,导致信息传播扭曲。拥有更多代理的系统可能会放大这种风险,使通信和信息交换变得不那么可靠[405]。此外,随着代理数量的增加,协调代理的难度也增加了,可能使代理之间的合作更具挑战性和效率低下,这可能影响实现共同目标的进展。

因此,构建一个庞大、稳定、持续的代理系统,忠实地复制人类工作和生活场景的前景已经成为一个有希望的研究领域。一个能够在由数百甚至数千个代理组成的社会中稳定运行并执行任务的代理,在未来更有可能在与人类的现实世界互动中找到应用。

6.5 未解决问题 在这一部分中,我们讨论了几个与基于LLM的代理相关的未解决问题。

关于LLM基础代理是否代表通往人工通用智能(AGI)的潜在路径的辩论。6 人工通用智能(AGI),也称为强AI,长期以来一直是人类在人工智能领域中的最终追求,经常出现在许多科幻小说和电影中。AGI有多种定义,但在这里我们指的是一种能够在广泛任务和领域中理解、学习和应用知识的人工智能,就像人类一样[31; 658]。相比之下,窄AI通常被设计用于特定任务,如围棋和国际象棋,缺乏与人类智能相关的广泛认知能力。目前,大型语言模型是否是实现AGI的潜在路径仍然是一个高度争议和有争议的话题[659; 660; 661; 662]。

鉴于GPT-4能力的广度和深度,一些研究人员(被称为支持者)认为,以GPT-4为代表的大型语言模型可以作为AGI系统的早期版本[31]。按照这种思路,基于LLM的代理构建有潜力带来更先进的AGI系统版本。这一论点的主要支持在于,只要它们能够在足够大且多样化的数据集上进行训练,这些数据集是真实世界的投影,包含丰富的任务类型,基于LLM的代理就可以发展出AGI能力。另一个有趣的论点是,自回归语言建模行为本身带来了压缩和泛化能力:就像人类在生存过程中对各种奇特和复杂的现象产生了理解一样,语言模型在简单地预测下一个标记的过程中,也实现了对世界的理解推理能力[579; 660; 663]。

然而,另一组人(被称为反对者)认为,基于LLM的代理构建无法发展出真正的强AI[664]。他们的主要论点集中在这样一个观点上,即LLM依赖于自回归下一个标记预测,无法产生真正的智能,因为它们没有模拟真正的人类思维过程,只是提供反应性响应[660]。此外,LLM也不通过观察或体验来学习世界运作的方式,导致了许多愚蠢的错误。他们认为,需要更先进的建模方法,如世界模型[665],才能发展AGI。

我们无法确定哪种观点是正确的,直到真正的AGI实现,但我们认为这样的讨论和辩论对整个社区的发展是有益的。

从虚拟模拟环境到物理环境。如前所述,虚拟模拟环境与真实物理世界之间存在显著差距:虚拟环境是场景受限的、任务特定的,并且以模拟方式进行交互[391; 666],而真实世界环境是无限的,可以容纳广泛的任务,并且以物理方式进行交互。因此,为了弥合这一差距,代理必须解决来自外部因素和自身能力的各种挑战,使它们能够有效地导航和在复杂的物理世界中操作。

首先,一个关键问题是在物理环境中部署代理时需要合适的硬件支持。这对硬件的适应性提出了很高的要求。在模拟环境中,代理的感知和动作空间都是虚拟的。这意味着在大多数情况下,代理的操作结果,无论是感知输入还是生成输出,都可以得到保证[395]。然而,当代理进入真实的物理环境时,它的指令可能不会被传感器或机械臂等硬件设备很好地执行,这会显著影响代理的任务效率。设计一个专门的接口或转换机制,让代理和硬件设备之间进行交互是可行的。然而,这可能会对系统的可重用性和简单性带来挑战。

为了让这一跃迁成功,代理需要具备增强的环境泛化能力。为了无缝地融入真实的物理世界,它们不仅需要理解和推理隐含意义的模糊指令[128],而且还必须能够灵活地学习和应用新技能[190; 592]。此外,当面对无限开放的世界时,代理有限的上下文也带来了重大挑战[236; 667]。这决定了代理是否能够有效地处理来自世界的大量信息并顺利运作。

最后,在模拟环境中,代理的输入和输出都是虚拟的,允许无数次的试错尝试[432]。在这种情况下,错误的容忍度很高,不会导致实际伤害。然而,在物理环境中,代理的不当行为或错误可能会对环境造成真实且有时不可逆转的伤害。因此,适当的规章制度和标准是非常必要的。我们需要关注代理在决策和行动生成时的安全性,确保它们不会对现实世界构成威胁或伤害。

集体智能在人工智能代理中。是什么神奇的技巧驱动我们的智能?实际上,并没有魔法。正如马文·明斯基在《心智社会》[442]中所表达的,智能的力量来自于我们的巨大多样性,而不是任何单一、无瑕的原则。通常,个人所做的决策可能缺乏多数人决策时所看到的精确性。集体智能是一种共享的或群体智能,是一个将许多人的意见整合成决策的过程。它起源于不同实体之间的协作和竞争。这种智能表现在细菌、动物、人类和计算机网络中,以各种基于共识的决策模式出现。

创建一个代理社会并不一定保证随着代理数量的增加而出现集体智能。有效协调个体代理是至关重要的,以减轻“群体思维”和个体认知偏差,使合作得以促进,并在集体中提高智力表现。通过利用代理社会中的通信和演化,可以模拟生物社会中观察到的演化,进行社会学实验,并获得可能推进人类社会的洞察。

代理即服务/基于LLM的代理即服务。随着云计算的发展,XaaS(一切即服务)的概念已经引起了广泛关注[668]。这种商业模式由于其可用性和可扩展性,为中小企业或个人带来了便利和成本节约,降低了使用计算资源的门槛。例如,他们可以在云服务平台上租用基础设施,而无需购买计算设备和建立自己的数据中心,节省了大量的人力和资金。这种方法被称为基础设施即服务(IaaS)[669; 670]。同样,云服务平台还提供基础平台(平台即服务,PaaS)[671; 672],特定的业务软件(软件即服务,SaaS)[673; 674]等。

随着语言模型规模的扩大,它们通常对用户来说是黑箱。因此,用户构建提示通过API查询模型,这种方法被称为语言模型即服务(LMaaS)[675]。同样,由于基于LLM的代理比LLM更复杂,对中小企业或个人来说更难以本地构建,拥有这些代理的组织可能会考虑将它们作为服务提供,称为代理即服务(AaaS)或基于LLM的代理即服务(LLMAaaS)。像其他云服务一样,AaaS可以为用户提供灵活性和按需服务。然而,它也面临许多挑战,如数据安全和隐私问题、可见性和可控性问题以及云迁移问题等。此外,由于LLM基础代理的独特性和潜在能力,如第6.3节所述,提供给客户之前需要考虑它们的鲁棒性、可信度和恶意使用的相关担忧。

7 结论

本文提供了一个全面和系统的概述,基于LLM的代理,讨论了这个蓬勃发展领域的潜在挑战和机遇。我们从哲学的角度开始,阐明了代理的起源和定义,它在人工智能领域的演变,以及为什么LLM适合作为代理大脑的主要部分。在这些背景信息的推动下,我们为基于LLM的代理提出了一个通用的概念框架,包括三个主要组成部分:大脑、感知和行动。接下来,我们介绍了基于LLM的代理的广泛应用,包括单代理应用、多代理系统和人机协作。此外,我们超越了代理仅仅是助手的概念,探索了它们的社会行为和心理活动,并将它们置于模拟的社会环境中,观察新兴的社会现象和对人类的洞察。最后,我们进行了讨论,并提供了对未来的一瞥,涉及LLM研究和代理研究之间的相互启发,基于LLM的代理的评估,与它们相关的风险,增加代理数量的机会,以及一些开放问题,如代理即服务和基于LLM的代理是否代表通往AGI的潜在路径。我们希望我们的努力能够激发社区的灵感,并促进相关领域的研究。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值