基于LLM的Agent的兴起及其潜力：综述

lichunericli

已于 2024-05-02 00:03:17 修改

阅读量1.6k

点赞数 18

分类专栏： Agent 文章标签：人工智能自然语言处理

于 2024-02-05 16:23:54 首次发布

本文链接：https://blog.csdn.net/lichunericli/article/details/136043825

版权

论文地址：https://arxiv.org/pdf/2309.07864v1.pdf

1. Introduction

LLM-based Agent的基本构成。本文认为，构成LLM-based Agent的核心部件有三个：

brain: 主要目标有2个—信息记忆、信息处理
perception: 主要目标在于让agent能够感受到更多不同模态的信息
action: 主要目标在于输出文字、控制智能体的行为、使用工具，从而能针对环境变化做出反应。

LLM-based Agent的应用。本文将这些应用也分为三块进行详述：

Single-Agent
Multi-Agent
Human-Agent Collaboration

LLM-based Agent Society。这块的目标在于探究agent如何认识环境，以及如何与其他agent进行复杂的社会性交互。本文也将Agent Society拆为三快内容进行详述：

Human-like behavior and personality
对于目前主流的环境介绍，包括Text-based Environment，virtual sandbox environment， physical world environment
Social Phenomena：主要涉及一些多agent在虚拟环境中交互的反馈

五个主题讨论：

Mutual Benefits
Evaluation efforts
Potential risks
Scaling up agent counts
Several open problems

2. Background

2.1 Agent这个词是如何出现的

有很多人或许会疑惑，Agent这个东西看起来跟LLM也没差得那么远，那为啥最近突然Agent那么火，而不称之为LLM-Application或者其他的词呢？这就得从agent的来历上说起了，因为Agent是个很古老的术语，甚至可以追溯至亚里士多德和休谟等人的言论。从哲学意义上讲，“代理人”是指具有行动能力的实体，而“代理”一词则表示这种能力的行使或体现。而从狭义上讲，“代理”通常是指有意行动的表现；相应地，“代理人”一词表示拥有欲望、信念、意图和行动能力的实体。需要注意的是，代理人不仅包括人类个体，还包括物理世界和虚拟世界中的其他实体。重要的是，“代理”的概念涉及个人的自主性，赋予他们行使意志、做出选择和采取行动的能力，而不是被动地对外部刺激做出反应。

在 20 世纪 80 年代中后期之前，主流人工智能界的研究人员对Agent相关概念的关注相对较少，这可能会让人感到惊讶。然而，从那时起，计算机科学和人工智能界对这一话题的兴趣就大大增加了。正如 Wooldridge 等人所言，我们可以这样定义人工智能：“它是计算机科学的一个子领域，旨在设计和构建基于计算机的、表现出智能行为各个方面的Agent。”因此，我们可以把Agent作为人工智能的核心概念。当Agent这一概念被引入人工智能领域时，其含义发生了一些变化。在哲学领域，Agent可以是人、动物，甚至是具有自主性的概念或实体。然而，在人工智能领域，Agent是一个计算实体。由于意识和欲望等概念对于计算实体来说似乎具有形而上学的性质，而且我们只能观察机器的行为，包括艾伦-图灵在内的许多人工智能研究者建议暂时搁置Agent是否“真正”在思考或是否真的拥有“思想”的问题。相反，研究人员采用其他属性来帮助描述Agent，如自主性、反应性、主动性和社交能力等属性。也有研究者认为，智能是“看人的眼睛”；它不是与生俱来的、孤立的属性。从本质上讲，AI Agent并不等同于Philosophy Agent；相反，它是Agent这一哲学概念在人工智能领域的具体化。在本文中，作者将AI Agent视为人工实体，它们能够使用传感器感知周围环境，做出决策，然后使用执行器采取行动。

2.2 AI Agent研究中的技术演变史

Symbolic Agents: 在人工智能研究的早期阶段，最主要的方法是符号人工智能，其特点是依赖符号逻辑。这种方法采用逻辑规则和符号表示来封装知识和促进推理过程。它们主要关注两个问题：转换问题和表示/推理问题。这些Agent旨在模拟人类的思维模式。它们拥有明确的、可解释的推理框架，而且由于其符号性质，它们表现出高度的表达能力。这种方法的一个典型例子是基于知识的专家系统。然而，Symbolic Agent在处理不确定性和大规模现实世界问题时面临着局限性。此外，由于符号推理算法错综复杂，要找到一种能在有限时间内产生有意义结果的高效算法也很有挑战性。

Reactive Agents: 与Symbolic Agent不同，Reactive Agent不使用复杂的符号推理。相反，它们主要关注Agent与其Environment之间的交互，强调快速和实时响应。这类Agent的设计优先考虑直接将输入输出进行映射，而不是复杂的推理和符号操作。Reactive Agent通常需要较少的计算资源，从而能做出更快的反应，但可能缺乏复杂的高层决策和规划能力。

RL-based Agents: 该领域的主要关注点是如何让Agent通过与环境的交互进行学习，使其在特定任务中获得最大的累积奖励。最初，RL-based Agent主要基于强化学习算法，如策略搜索和价值函数优化，Q-learning和SARSA就是一个例子。随着深度学习的兴起，出现了深度神经网络与强化学习的整合，即深度强化学习。这使得Agent可以从高维输入中学习复杂的策略，从而取得了众多重大成就，如AlphaGo和DQN。这种方法的优势在于它能让Agent在未知环境中自主学习，而无需明确的人工干预。这使得它能广泛应用于从游戏到机器人控制等一系列领域。然而，强化学习也面临着一些挑战，包括训练时间长、采样效率低以及稳定性问题，尤其是在复杂的真实世界环境中应用时。

Agent with transfer learning and meta learning: 传统上，训练强化学习Agent需要大量样本和较长的训练时间，而且缺乏泛化能力。因此，研究人员引入了迁移学习来加速Agent对新任务的学习。迁移学习减轻了新任务培训的负担，促进了知识在不同任务间的共享和迁移，从而提高了学习效率、绩效和泛化能力。此外，AI Agent也引入了元学习。元学习的重点是学习如何学习，使Agent能从少量样本中迅速推断出新任务的最优策略。这样的Agent在面对新任务时，可以利用已获得的一般知识和策略迅速调整其学习方法，从而减少对大量样本的依赖。然而，当源任务和目标任务之间存在显著差异时，迁移学习的效果可能达不到预期，并可能出现负迁移。此外，元学习需要大量的预训练和大量样本，因此很难建立通用的学习策略。

LLM-based Agent: 由于大型语言模型已经展示出令人印象深刻的新兴能力，并受到广泛欢迎，研究人员已经开始利用这些模型来构建AI Agent。具体来说，他们采用 LLM 作为这些Agent的大脑或控制器的主要组成部分，并通过多模态感知和工具利用等策略来扩展其感知和行动空间。通过思维链（CoT）和问题分解等技术，这些基于 LLM 的Agent可以表现出与Symbolic Agen相当的推理和规划能力。它们还可以通过从反馈中学习和执行新的行动，获得与环境互动的能力，类似于Reactive Agent。同样，大型语言模型在大规模语料库中进行预训练，并显示出少量泛化的能力，从而实现任务间的无缝转移，而无需更新参数。LLM-based Agent已被应用于各种现实世界场景、如软件开发和科学研究。由于具有自然语言理解和生成能力，它们可以无缝互动，从而促进多个Agent之间的协作和竞争。

2.3 为什么LLM能够作为Agent的全新大脑

本文将深入探讨一些Agent关键属性，阐明它们与 LLM 的相关性，从而阐述为什么 LLM 非常适合作为AI Agent大脑。

自主性（Autonomy）：自主性是指一个Agent在没有人类或其他人直接干预的情况下运行，并对其行动和内部状态拥有一定程度的控制。这意味着，AI Agent不仅应具备按照人类的明确指令完成任务的能力，还应表现出独立发起和执行行动的能力。这意味着一定程度的自主探索和决策，Auto-GPT等应用体现了 LLM 在构建Autonomious Agent方面的巨大潜力——只需向它们提供一项任务和一套可用工具，它们就能自主制定计划并执行计划，以实现最终目标。本文认为LLMs在自主性方面的表现主要体现在以下几点：

LLMs可以通过生成类似人类的文本参与对话，并在没有详细步骤指示的情况下执行各种任务的能力来展示一种自主性。
LLMs能根据环境输入动态调整输出，体现出一定程度的自适应能力。
LLMs能通过展示创造力来体现自主性，比如提出新颖的想法、故事或解决方案，而这些并没有明确编入它们的程序。

反应性（Reactivity）：Agent的反应能力是指它对环境中的即时变化和刺激做出快速反应的能力。这意味着Agent可以感知周围环境的变化，并迅速采取适当的行动。传统上，语言模型的感知空间局限于文本输入，而行动空间则局限于文本输出。不过，研究人员已经证明，利用多模态融合技术可以扩展语言模型的感知空间，使其能够快速处理来自环境的视觉和听觉信息。这些进步使 LLMs 能够有效地与真实世界的物理环境互动，并在其中执行任务。一个主要挑战是：LLM-based Agent在执行非文本操作时，需要一个中间步骤，即以文本形式产生想法或制定工具使用方法，然后最终将其转化为具体操作。这一中间过程会消耗时间，降低响应速度。不过，这与人类的行为模式密切相关，因为人类的行为模式遵循“先思考后行动”的原则。

主动性（Pro-activeness）：积极主动指的是，Agent不仅仅会对环境做出反应，它们还能积极主动地采取以目标为导向的行动。这一特性强调，Agent可以在行动中进行推理、制定计划和采取主动措施，以实现特定目标或适应环境变化。虽然直观上，LLMs 中的下一个标记预测范式可能不具备意图或愿望，但研究表明，它们可以隐式地生成这些状态的表征，并指导模型的推理过程。LLMs 具有很强的概括推理和规划能力。通过向大型语言模型发出类似 "让我们一步一步地思考 "的指令，我们可以激发它们的推理能力，如逻辑推理和数学推理。同样，大型语言模型也以目标重拟、任务分解和根据环境变化调整计划等形式显示了规划的新兴能力。

社会能力（Social Ability）：社交能力指的是一个Agent通过某种Agent交流语言与其他Agent（包括人类）进行交互的能力。大型语言模型具有很强的自然语言交互能力，如理解和生成能力。与结构化语言或其他通信原语相比，这种能力使它们能够以可解释的方式与其他模型或人类进行交互，这构成了LLM-based Agent的社会能力的基石。许多研究人员已经证明，LLM-based Agent可以通过协作和竞争等社会行为提高任务绩效（Meta GPT）。通过输入特定的提示，LLM 也可以扮演不同的角色，从而模拟现实世界中的社会分工（Overcooked）。此外，当我们将多个具有不同身份的Agent放入一个社会中时，可以观察到新出现的社会现象（Generative Agent）。

3. The Birth of An Agent: Construction of LLM-based Agents

图1：LLM-based Agent的概念框架，由大脑、感知、行动三个部分组成。作为控制器，大脑模块承担记忆、思考和决策等基本任务；感知模块负责感知和处理来自外部环境的多模态信息；行动模块负责使用工具执行任务并影响周围环境。

本文提出了LLM-based Agent的总体概念框架，由大脑、感知、行动三个关键部分组成（见图1）。

3.1 Agent的大脑模块

图2：大脑模块的拓扑图

大脑主要由一个大型语言模型组成，不仅存储知识和记忆，还承担着信息处理和决策等功能，并可以呈现推理和规划的过程，能很好地应对未知任务。

运行机制：为确保有效交流，自然语言交互能力(3.1.1)至关重要。在接收感知模块处理的信息后，大脑模块首先转向存储，在知识中检索(3.1.2)并从记忆中回忆(3.1.3)。这些结果有助于Agent制定计划、进行推理和做出明智的决定(3.1.4)。此外，大脑模块还能以摘要、矢量或其他数据结构的形式记忆Agent过去的观察、思考和行动。同时，它还可以更新常识和领域知识等知识，以备将来使用。LLM-based Agent还可以利用其固有的概括和迁移能力来适应陌生场景(3.1.5)。在随后的章节中将详细探讨图2所示的大脑模块的这些非凡功能。

3.1.1 自然语言交互

作为一种交流媒介，语言包含着丰富的信息。除了直观表达的内容，背后还可能隐藏着说话者的信念、愿望和意图。由于 LLM 本身具有强大的自然语言理解和生成能力，Agent不仅可以熟练地使用多种语言进行基本的交互式对话，还能表现出深入的理解能力，从而使人类能够轻松地理解Agent并与之互动。

多轮交互对话：多轮对话能力是有效和一致交流的基础。作为大脑模块的核心，LLM能够理解自然语言并生成连贯且与上下文相关的回复，从而帮助Agent更好地理解和处理各种问题。然而，即使是人类也很难在一次交流中不出现混乱，因此需要多轮对话。与 SQuAD 等传统的纯文本阅读理解任务相比，多轮对话具有以下几个特点：

具有交互性，涉及多个说话者，缺乏连续性；
可能涉及多个话题，对话信息也可能是冗余的，使得文本结构更加复杂。

一般来说，多轮对话主要分为三个步骤： (1) 了解自然语言对话的历史；(2) 决定采取什么行动；(3) 生成自然语言回应。LLM-based Agent能够利用现有信息不断完善输出，进行多轮对话并有效实现最终目标。

高质量的自然语言生成：最新的 LLM 展示了卓越的自然语言生成能力，可持续生成多种语言的高质量文本。LLM 生成内容的连贯性和语法准确性稳步提高，从GPT-3逐步发展到 InstructGPT，最终达到 GPT-4。这些语言模型可以“适应调节文本的风格和内容”，而像ChatGPT这样的模型在语法错误检测方面表现出色，凸显了其强大的语言能力。在对话语境中，LLMs 在对话质量的关键指标上也表现出色，包括内容、相关性和适当性。重要的是，LLMs 不仅仅复制训练数据，而且还表现出一定程度的创造力，能生成与人类制作的基准文本同样新颖甚至更加新颖的各种文本。同时，通过使用可控提示，确保对这些语言模型生成的内容进行精确控制，人类的监督依然有效。

意图和含义理解：尽管在大规模语料库中训练出来的模型已经具有足够的智能来理解指令，但它们中的大多数仍无法模拟人类对话或充分利用语言所传达的信息。要想与其他智能机器人进行有效的交流与合作，理解其隐含的意思至关重要，并使人们能够解释他人的反馈。LLMs 的出现凸显了基础模型在理解人类意图方面的潜力，但当涉及到模糊指令或其他含义时，就会给Agent带来巨大挑战。对于人类来说，掌握对话中的隐含意义是自然而然的事，而对于Agent来说，他们应该将隐含意义形式化为奖励函数，使他们能够在看不见的语境中选择符合说话者偏好的选项。奖励建模的主要方法之一是根据反馈推断奖励，反馈主要以比较和无约束自然语言的形式呈现。另一种方法是以行动空间为桥梁，从描述中获取奖励。Jeon 等人认为，人类行为可以映射为从一组隐含选项中做出的选择，这有助于用一个统一的形式解释所有信息。利用对上下文的理解，Agent可以根据具体要求采取高度个性化和准确的行动。

3.1.2 知识

研究表明，在大规模数据集上训练的语言模型可以将各种知识编码到其参数中，并对各种类型的查询做出正确的反应。此外，这些知识还能帮助LLM-based Agent做出明智的决策。所有这些知识可大致分为以下几类：

语言知识：语言知识表现为一个约束系统，即语法，它定义了语言的所有和唯一可能的句子。它包括词法、句法、语义学和语用学。只有掌握了语言知识的Agent才能理解句子并进行多轮对话。此外，这些Agent可以通过在包含多种语言的数据集上进行训练来获取多语言知识，从而无需额外的翻译模型。
常识知识：常识性知识指的是大多数人在幼年时就已掌握的世界常识。例如，人们通常知道药是用来治病的，伞是用来防雨的。这些信息通常不会在上下文中明确提及。因此，缺乏相应常识性知识的模型可能无法理解或误解其中的含义。同样，缺乏常识性知识的Agent可能会做出错误的决定，比如在下大雨时不打伞。
专业领域知识：专业领域知识是指与特定领域相关的知识，如编程、数学、医学等。它对模型有效解决特定领域内的问题至关重要。例如，用于执行编程任务的模型需要具备编程知识，如代码格式。同样，用于诊断目的的模型应具备医学知识，如特定疾病和处方药的名称。

潜在问题：尽管 LLM 在获取、存储和利用知识方面表现出色，但仍然存在潜在的问题和悬而未决的难题。例如，模型在训练过程中获得的知识可能会过时，甚至从一开始就是错误的。解决这一问题的简单方法是重新训练。但是，这需要先进的数据、大量的时间和计算资源。更糟糕的是，它可能导致灾难性遗忘。因此，一些研究人员尝试编辑 LLM，以找到并修改模型中存储的特定知识。这包括在获取新知识的同时卸载不正确的知识。他们的实验表明，这种方法可以部分编辑事实知识，但其基本机制仍需进一步研究。此外，LLMs 可能会生成与来源或事实信息相冲突的内容，这种现象通常被称为幻觉。这也是 LLM 无法广泛应用于严格的事实任务的重要原因之一。为解决这一问题，一些研究人员提出了衡量幻觉程度的指标，为开发人员提供了评估 LLM 输出可信度的有效参考。此外，一些研究人员还使 LLM 能够利用外部工具来避免错误的 LLM 输出。

3.1.3 记忆

在本文的框架中，“记忆”存储了Agent过去的观察、思考和行动序列，这与 Nuxoll 等人提出的定义类似。正如人脑依靠记忆系统来回溯利用先前的经验制定策略和做出决策一样，Agent也需要特定的记忆机制来确保其熟练处理一系列连续任务。在面对复杂问题时，记忆机制能帮助行为主体有效地重新审视和应用先前的策略。此外，这些记忆机制还能使个体借鉴过去的经验，适应陌生的环境。随着LLM-based Agent互动周期的扩大，出现了两个主要挑战。第一个挑战与历史记录的长度有关。LLM-based Agent以自然语言格式处理先前的交互，并将历史记录附加到每个后续输入中。随着这些记录的增加，它们可能会超出大多数LLM-based Agent所依赖的 Transformer 架构的限制。在这种情况下，系统可能会截断某些内容。第二个挑战是提取相关记忆的难度。当Agent积累了大量的历史观察和行动序列时，它们就会面临不断升级的记忆负担。这使得在相关主题之间建立联系变得越来越具有挑战性，有可能导致Agent的反应与当前环境不一致。提高记忆能力的方法下面我们介绍几种增强LLM-based Agent记忆能力的方法。

提高Transformer的输入长度限制：第一种方法试图解决或减轻固有的序列长度限制。由于这些固有限制，Transformer架构很难处理长序列。随着序列长度的增加，由于Self-Attention机制中的成对标记计算，计算需求将呈指数级增长。缓解这些长度限制的策略包括文本截断、分割输入，以及强调文本的关键部分。还有一些研究修改了注意力机制，以降低复杂性，从而适应较长的序列。
总结记忆：提高记忆效率的第二种策略取决于记忆总结的概念。这能确保Agent毫不费力地从历史互动中提取关键细节。一些方法利用提示简洁地整合记忆，而另一些方法则强调反思过程，以创建浓缩的记忆表征。分层方法将对话精简为每日快照和总体总结。一些特定的策略将环境反馈转化为文本封装，从而加强了Agent对未来参与的语境把握。此外，在multi-agent环境中，Agent交流的重要元素会被捕获并保留下来。
用向量或数据结构压缩记忆：通过采用合适的数据结构，智能Agent可提高记忆检索效率，促进对交互做出迅速反应。值得注意的是，有几种方法依赖于为记忆部分、计划或对话历史嵌入向量。另一种方法将句子转化为三元组配置，还有一些方法将记忆视为独特的数据对象，从而促进不同的交互。此外，ChatDB和DB-GPT将 LLMrollers 与 SQL 数据库整合在一起，通过 SQL 命令进行数据操作。

记忆检索方法

当Agent与其环境或用户交互时，必须从其内存中检索最合适的内容。这可确保Agent访问相关的准确信息，以执行特定操作。这就产生了一个重要问题： Agent如何选择最合适的存储器？通常情况下，Agent要求存储器具有自动检索记忆的能力。自动检索的一个重要方法是考虑三个指标： 最近性（Recency）、相关性（Relevance）和重要性（Importance）。记忆得分由这些指标加权组合而成，得分最高的记忆在模型的上下文中被优先考虑。一些研究引入了交互式记忆对象的概念，即对话历史的表现形式，可以移动、编辑、删除或通过总结进行组合。用户可以查看和操作这些对象，从而影响Agent对对话的感知。同样，其他研究也允许根据用户提供的特定命令进行删除等记忆操作。这些方法确保了记忆内容与用户的期望密切相关。

3.1.4 推理和规划

推理（Reasoning）：推理以证据和逻辑为基础，是人类智力活动的根本，是解决问题、决策和批判性分析的基石。演绎、归纳和归纳是智力活动中常见的主要推理形式。对于LLM-based Agent来说，与人类一样，推理能力对于解决复杂任务至关重要。关于大型语言模型的推理能力，学术界存在不同观点。一些人认为语言模型在预训练或微调过程中就具备了