The Rise and Potential of Large Language ModelBased Agents: A Survey 论文阅读笔记

本文链接：https://blog.csdn.net/JP_Y666/article/details/133960780

1.agent的定义：从哲学角度出发：有行动能力的实体。人工智能领域，agent是一个计算实体

2.基于大语言模型提出一个通用框架：由大脑，感知，行为三部分组成.

大脑作为关键，由大语言模型组成，负责记忆、处理、决策、推理、规划等

感知不仅仅是对文本的感知，涉及多模感知，额外如声音、视觉、触觉、气味等

行动除文本输出以外，还有使用工具，应对环境变化甚至是改变环境

3.设计追求：围绕Hamessing AI for good(AI造福人类)

4.存在疑问：agents之间的合作、竞争、交互模式个性和社会性如何体现

5.前置信息：

agent的起源与发展：

Symbolic Agents.

采取逻辑规则和符号表示和封装知识并推理过程，它们主要关注两个问题：转导问题和表示/推理问题，在处理不确定性和大规模现实世界问题方面面临限制，复杂性高，性能欠佳。

Reactive agents.

不使用复杂的符号推理。相反，他们主要关注代理与其环境之间的交互，强调快速和实时的响应这些代理主要基于感知-行为循环，有效地感知和反应环境。缺乏复杂的更高级别决策和规划能力。

Reinforcement learning-based agents.

这种方法的优势在于它能够使智能体在未知环境中自主学习，而无需明确的人工干预。这使得它能够在一系列领域中广泛应用，从游戏到机器人控制等等。尽管如此，强化学习仍面临挑战，包括训练时间长、样本效率低和稳定性问题，尤其是在复杂的现实世界环境中应用时

Agents with transfer learning and meta learning

可以通过利用所获得的一般知识和策略来快速调整其学习方法，从而减少对大量样本的依赖。然而，当源任务和目标任务之间存在显著差异时，迁移学习的有效性可能达不到预期，并且可能存在负迁移。此外，元学习所需的大量预训练和大样本量使其难以建立通用的学习策略

Large language model-based agents

由于其自然的语言理解和生成能力，它们可以无缝地相互交互，从而在多个代理之间产生协作和竞争。此外，研究表明，允许多个主体共存会导致社会现象的出现

LLM适合作为大脑组成部分的原因

自主性：不需要人为干预

反应性：对空间的多模感知能力，与环境互动

主动性：推理与规划能力，不仅仅是对环境的被动反应

社交能力：协作与竞争以提升自身能力

6.脑

自然语言交互：

多回合互动对话作为基础，高质量的生成自然语言，理解意图和含义（存在难点：对潜台词的理解）

知识：

语言知识（形态学、句法、语义学，翻译模型等）

常识性知识（物品的使用场景等）

专业领域知识（编程，数学，医学等）

问题与挑战：对于过时或者不正确的知识需要重新训练，这需要很多时间和计算资源，还可能导致遗忘。LLM可能生成与来源或事实信息相冲突的内容，这种现象通常被称为hallucinations（幻觉）

记忆力：

提升记忆力的方法

1.Raising the length limit of Transformers.

2.Summarizing memory.（总结记忆简介存储）

3.Compressing memories with vectors or data structures.（通过采用合适的数据结构，智能代理提高了内存检索效率，促进了对交互的快速响应）

4.Methods for memory retrieval.（优化检索算法）

推理与规划

规划能力对智能体至关重要，而该规划模块的核心是推理能力，通过推理，代理将复杂的任务分解为更易于管理的子任务，为每个任务制定适当的计划。规划包括两个阶段：计划制定和计划反思。

可移植性与泛化

基于LLM的代理不仅仅是作为一个静态知识库发挥作用，而是表现出动态学习能力，使其能够快速而稳健地适应新任务

未知任务泛化（LLM可以根据自己的理解，按照说明完成他们在培训阶段没有遇到的新任务）

情境学习（LLM可以通过上下文学习（ICL）执行各种复杂任务）

持续学习（LLM的规划能力在促进了agent持续学习）

7.知觉

文本输入（基于LLM的agent已经具有通过文本输入和输出与人类通信的基本能力）

视觉输入（视频输入由一系列连续的图像帧组成，将视觉信息与其他模态的数据相结合，可以为主体提供更广泛的背景和更精确的理解）

听觉输入（agent可以使用LLM作为控制中心，以级联方式调用现有工具集或模型存储库来感知音频信息）

其他输入（触觉和嗅觉，眼睛跟踪、身体运动捕捉，甚至脑机交互中的脑电波信号等技术）

8.行动

文本输出（文本质量在流畅性、相关性、多样性、可控性等各个方面都很出色。因此，基于LLM的代理可以是异常强大的语言生成器。）

工具使用（agent使用和利用工具，他们就有可能更高效、更高质量地完成复杂任务，通过使用描述工具功能和参数的零样本提示或提供特定工具使用场景和相应方法演示的少速提示来获取有关工具的知识，学习使用工具的方法主要包括从演示中学习和从反馈中学习。这包括模仿人类专家的行为，以及了解他们行为的后果，并根据从环境和人类收到的反馈做出调整，基于LLM的agent也具有通过生成可执行程序或将现有工具集成到更强大的工具中来创建工具的能力。并且他们可以学习执行自调试）

具体行动（主动感知、理解和与物理环境互动，做出决策，并根据LLM广泛的内部知识产生特定的行为来修改环境。）

9.造福人类

目标：

帮助用户摆脱日常任务和重复劳动，从而减轻人类工作压力，提高任务解决效率。
不再需要用户提供明确的低级指令。相反，agent可以独立分析、计划和解决问题。
在解放了用户的双手之后，该agent还解放了他们的思想，让他们从事探索性和创新性的工作，充分发挥了他们在尖端科学领域的潜力。

单个agent的一般能力

1.面向任务部署：遵循用户的高级指令，执行任务，如目标分解、子目标的序列规划、环境的交互式探索，直到实现最终目标。

2.以创新为导向的部署：存在挑战：一方面，科学固有的复杂性构成了一个重大障碍。许多特定领域的术语和多维结构很难用单个文本来表示。因此，它们的完整属性无法完全封装。这大大削弱了代理人的认知水平。另一方面，科学领域严重缺乏合适的训练数据，这使得代理人很难理解整个领域的知识。如果能够在智能体内部发现自主探索的能力，无疑将为人类技术带来有益的创新。

3.面向生命周期的部署：能够在一个开放、未知的世界中不断探索、发展新技能并保持长期生命周期，这是一个巨大的挑战。

多主体的协调潜力

基于分工原则，具备专业技能和领域知识的单个agent可以从事特定任务。一方面，agent处理特定任务的技能通过分工越来越精细。另一方面，将复杂任务分解为多个子任务可以消除在不同流程之间切换所花费的时间。最终，与没有专业化的情况相比，多个agent之间的有效分工可以完成更大的工作量，从而大大提高整个系统的效率和输出质量

互补性的合作互动：

整个讨论过程是不受控制的，没有任何特定的顺序，也没有引入标准化的协作工作流程。我们将这种多主体合作称为无序合作。

当系统中的代理遵守特定的规则时，例如，以顺序的方式逐一表达他们的意见时，下游代理只需要关注上游的输出。这导致任务完成效率的显著提高，整个讨论过程具有高度的组织性和有序性。我们将这种多智能体合作称为有序合作。

对抗性互动促进进步:

在竞争环境中，agent可以通过动态互动快速调整策略，努力选择最有利或最合理的行动来应对其他agent引起的变化,对抗性互动可以提高反应的质量。

人与代理人的互动互动:

随着代理人能力的增强，人的参与对于有效指导和监督代理人的行动变得越来越重要，确保他们与人的需求和目标保持一致。在整个互动过程中，人类通过提供指导或通过规范代理人的安全、合法性和道德行为。分为讲师-执行者范式、平等伙伴关系模式

10.代理人社会：从个体性到社会性

基于LLM的代理人的行为与人格

1.社会行为

基本的个人行为（输入行为，内化行为，输出行为）

动态群体行为（积极/中性/消极的群体行为）

2.性格

认知能力（获得知识和理解的心理过程，包括思考、判断和解决问题）

情商（主观感受和情绪状态）

人物刻画（认知涉及心智能力，情感涉及主观体验，而狭义的人格概念通常涉及独特的性格模式）

3.Agent社会的环境

基于文本的环境（最自然，贴切于模型）

虚拟沙盒环境（可视化，可拓展）

物理环境（真实）

4.基于LLM的Agent的社会仿真

Agent社会的关键特性与机制：

1.开放性

2.持久性

3.有组织

代理社会的真知灼见

1.有组织的富有成效的合作

2.社交网络中的传播

3.伦理决策和博弈论

4.政策制定和改进

agengt社会的伦理与社会风险

1.意外的社会伤害

2.刻板印象和偏见

3.隐私与安全

4.过度依赖和成瘾

11.讨论

LLM为agent研究提供了一个非常强大的基础模型，当整合到agent相关研究中时，开辟了许多新的机会，agent研究为大型语言模型的发展提供了更大的研究动力。

潜在风险：

误用（利用LLM的代理做一些违反道德甚至法律的事情）

失业（缓解劳动压力的同时就是压缩就业岗位）

对人类更大的威胁（当人工智能的能力超越人类，不免有失控的担忧）

自己的一些想法：随着chatgpt的爆火，基于LLM的人工智能一跃成为了热点话题，不同于元宇宙，vr等一时兴起的想法，大语言模型更像是默默无闻后的一鸣惊人。随着AI不断发展融入日常生活生产活动，一方面我们更接近了科幻场景中对未来的向往，另一方面也暴露出了一定的问题。

今年十月，我开始确定了自己的就业方向，对于人工智能崛起下的科技大背景我是极度兴奋和抱有积极态度的。当下科技狂欢经济低迷的现状，必定在未来5-10年内形成新技术推动的全新增长极。当然，AI未来会融入到各个行业解放生产力，促进社会发展，而我目前关心的则是消声觅迹的虚拟现实方向。我相信某项科技融入日常生活一定是软硬件共同作用的结果。

当下摩尔定律失效，硬件性能已经到了瓶颈期，我们很难在传统技术下完成技术突破，而虚拟现实产业目前最大的痛点之一就是使用场景有限，追根溯源是因为软硬件不完善。硬件方面，受限于体积，单纯的头戴设备不足以支撑高性能芯片的体积和散热需求，反推到软件也不能达到目前已存在的次世代画面水平，另一方面屏幕的刷新率分辨率的高要求也注定了价格和产品需求只能放在跷跷板两端。

我仍然保持乐观态度的根据，主要来自于苹果vp的发布。明年春季vision pro将上市，作为苹果的一款全新形态产品一定会产生很大的影响。我一向相信苹果的资源整合能力，目前可能也只有苹果的号召力可以将一款全新产品形态的产品的生态搭建起来。当然，3499刀的售价注定第一代产品的跨时代意义大于实际使用意义，头戴式设备的全面市场铺开也一定是在迭代到ipad相似价格区间内的事情。不同于传统的vr mr产品，vp整合了相当多的技术和创新，更重要的是苹果这个饼会有更多开发者愿意吃，软件生态的丰富和用户基数的增长必然是个循环，我坚信会是良性的，从从而带动全新的行业变革。游戏领域，我们讲实现小时候爆丸、游戏王等一众玩具卡牌衍生剧的场景，mr将带给这类派对游戏全新的娱乐体验。同时结合传统娱乐行业，比如最近比较火的剧本杀和密室，都可以带来全新的游戏形式。

AI将激发更多的生产力去突破技术瓶颈的同时，也会给游戏行业注入新的血液，可能这才是元宇宙的正确打开方式。头戴式设备，高性能硬件，次世代画面，全新的娱乐方式，甚至全新的物种————电子生灵。