【连载4】基础智能体的进展与挑战综述-记忆

本文链接：https://blog.csdn.net/bigdata_bupt/article/details/147271019

基础智能体的进展与挑战综述

从类脑智能到具备可进化性、协作性和安全性的系统

【翻译团队】刘军(liujun@bupt.edu.cn) 钱雨欣玥冯梓哲李正博李冠谕朱宇晗张霄天孙大壮黄若溪

3. 记忆

记忆是人类与人工智能的核心基础。对人类而言，记忆构成了认知的基石，是一个庞大的经验与知识储备库，使我们能够学习、适应并应对复杂的现实世界。从婴儿期开始，我们编码、存储与提取信息的能力支撑了语言的习得、技能的掌握和人际关系的建立。神经科学与认知心理学数十年的研究揭示了记忆的多重作用，显示它对自我认知、创造力以及决策过程具有深远影响。

类似地，在日益发展的人工智能领域，记忆正日益被视为智能行为的基石。正如人类依赖过往经验指导当前行为，AI 智能体也需要强大的记忆机制以完成复杂任务、预测未来情境并适应动态环境。因此，对人类记忆的深入理解——包括其组织结构、运行机制与局限性——为开发更强大、更具适应性的人工智能系统提供了宝贵参考。

本节将首先简要概述人类记忆的关键阶段，聚焦于编码（encoding）、巩固（consolidation）与提取（retrieval）。随后，我们将转向人工智能智能体的记忆系统设计，探索从传统符号表示到最前沿神经网络方法的多样技术路径。通过对人工记忆系统与人类记忆的对比，将揭示其在适应性、上下文理解和韧性等方面的差距。最后，我们将思考神经科学与认知心理学的原理如何指导未来研究，并提出潜在的发展方向，以构建更稳健、更具层次性、最终更接近人类记忆卓越能力的人工记忆系统。

3.1 人类记忆概述

3.1.1 人类记忆的类型

人类记忆通常被构想为一个多层级系统，能够在不同的处理层次和时间尺度上捕捉、存储并提取信息。来自认知科学、神经科学和心理学领域的研究者提出了多种模型来描述这些层次。其中一种被广泛接受的层级结构将记忆划分为：感觉记忆、短时记忆（包括工作记忆）和长时记忆[170, 171]。在长时记忆中，又可进一步细分为外显记忆（陈述性）与内隐记忆（非陈述性）[172]。图 3.1 展示了此类层级结构的一个示意框架：

图3.1 人类记忆系统的层次化分类

感觉记忆（Sensory Memory）：感觉记忆是对原始感官信息的初步、短暂储存，持续时间从毫秒到几秒不等。它保留来自环境的输入，为后续的处理提供时间以判断哪些刺激成分值得进一步分析[173]。其中，图像记忆（iconic memory）用于视觉输入[174]，回音记忆（echoic memory）用于听觉输入[175]，是两个经典的子类型。

短时记忆与工作记忆（Short-Term Memory and Working Memory）：短时记忆（STM）指在短时间内（几秒至一分钟内）保持有限信息处于易于获取的状态。而“工作记忆”这一术语则强调对信息的加工操作，而不仅是维持。有些模型将工作记忆视为短时记忆的子系统，而另一些模型则将其定义为一个独立系统，负责信息的存储与主动加工（如在脑中进行心算）[176, 177]。STM 或工作记忆的容量是有限的，经典研究认为其容量约为“七加减二”个信息块[98]，但个体差异和任务类型可能会影响该数值。

长时记忆（Long-Term Memory, LTM）：长时记忆用于更持久的信息存储，其持续时间可从数小时延续至数十年[178, 179]。这一记忆库支持技能的学习、事实知识的获取以及个人经验的回忆。虽然长时记忆有时被描述为容量巨大或近乎无限，但信息能否被成功提取还受到遗忘（decay）、干扰（interference）与提取线索（retrieval cues）**等因素的影响[180]。

陈述性记忆（Declarative/Explicit Memory）：包括那些能够被有意识地回忆和表达的记忆内容[181]。在该类别中，研究者通常区分以下几种类型：

- 语义记忆（Semantic Memory）：关于世界的事实性知识，包括概念、词汇及其之间的关系[182]。例如：记得一个词的含义，或知道某个国家的首都是哪里。
- 情景记忆（Episodic Memory）：指对个人亲身经历事件的记忆，这些记忆保留有时间、地点和参与者等背景细节[183]。这种记忆形式允许个体“心理时空穿越”，重温过去的经历。
- 自传记忆（Autobiographical Memory）：情景记忆的一种，聚焦于与个人生活史相关的事件和体验[184]。虽然有时被视为情景记忆的子类，但自传记忆尤其强调“自我”及其随着人生演化的叙述。

非陈述性记忆（Non-Declarative / Implicit Memory）：指那些无需有意识回忆便能影响行为的记忆[185]。主要子类型包括：

程序性记忆（Procedural Memory）：对运动技能与习惯的渐进性掌握（如骑自行车、打字），在重复实践中逐渐变得自动化[186, 187]。

启动效应（Priming）：此前接触过的刺激会在无意识中影响之后的反应，即便个体并不明确记得之前的接触经历[188]。

经典条件反射（Classical Conditioning）：两种刺激之间形成的联结，其中一个刺激能够引发原本由另一个刺激所激发的反应[189]。

非联结性记忆（Non-Associative Memory）：在重复暴露于同一刺激后引起的行为适应性变化。包括习惯化（habituation）（对无害重复刺激的反应减弱）和敏感化（sensitization）（在经历强烈或有害刺激后反应增强）[190, 191]。

尽管上述分类看似井然有序，但人类记忆过程在实际中往往是交叉重叠的。例如，自传记忆通常被视为情景记忆的一部分，但由于其对“自我相关经历”的特殊关注，一些理论家倾向于将其视为略有不同的独立类别。同样地，短时记忆与工作记忆之间的边界也因理论视角而异。有的学者倾向于采用更偏重功能与过程的工作记忆定义，强调其在信息加工与操作中的作用；而另一些则坚持将短时记忆视为纯粹的容量限制型信息暂存系统。这些对记忆的不同理解方式体现了人类认知的复杂性与精细性，说明记忆并非由简单、分明的模块构成，而是一个动态、多维、相互交织的系统。

3.1.2 人类记忆模型

人类记忆激发了众多理论模型的产生，这些模型从不同角度阐释信息是如何被获取、组织与提取的。尽管目前尚无一个框架能获得普遍共识，但在认知科学、神经心理学以及人工智能研究中，一些具有深远影响的观点已经在理论探索与实践应用中占据核心地位。

以下内容将重点介绍几种最具代表性与影响力的记忆模型与架构，它们从多个维度解释了记忆的复杂特性，并对理解人类认知系统及构建人工智能记忆机制提供了重要启发。

多重存储模型（Multi-Store Model 或 Modal Model）

是由 Atkinson 和 Shiffrin 提出的一项开创性理论[170]，该模型主张人类记忆由三个主要存储系统组成：

- 感觉记忆（Sensory Memory）
- 短时记忆（Short-Term Memory, STM）

- 长时记忆（Long-Term Memory, LTM）

在该模型中，信息从外界输入后首先进入感觉记忆；只有被注意（attention）或进一步重复（rehearsal）处理的信息才会被转移至短时记忆；若持续加工和编码，则可能最终进入长时记忆中形成更持久的表征。模型还引入了“控制过程（control processes）”这一概念，用以描述如注意力分配、复述练习等机制，帮助信息在各存储系统之间转移。尽管该模型相对简洁，它依然是理解信息如何从短暂的感官印象转化为稳定、长久记忆表征的基础理论框架之一。图 3.2 直观展示了该模型的结构与信息流动路径。

图3.2：Atkinson-Shiffrin三阶段人类记忆模型

工作记忆模型（Working Memory Models）

在认识到短时记忆还包含对信息的主动维护之后，Baddeley 和 Hitch 提出了著名的工作记忆模型[192]，强调信息的动态加工。其原始模型包括一个中央执行系统（central executive），负责协调两个子系统：

- 语音环路（phonological loop）：处理语言和听觉信息；

- 视觉空间画板（visuospatial sketchpad）：处理视觉和空间信息。

后续的扩展模型中，新增了一个情节缓冲器（episodic buffer），用于整合来自两个子系统的信息与长时记忆中的内容[193]。图 3.3 展示了该模型的结构。类似地，Cowan 的嵌套过程模型（embedded-processes model）[194]也强调注意力在维持和操作短时信息中的核心作用。

图3.3：Baddeley工作记忆模型

序列-并行-独立模型（Serial-Parallel-Independent, SPI Model）

Tulving 起初提出了情景记忆、语义记忆和程序性记忆的区分[195]，后将其发展为SPI 模型（如图 3.4 所示）。该模型将记忆系统划分为两个大类：

- 认知表征系统（Cognitive Representation System）：处理感知输入和语义加工，涉及事实、概念与上下文知识（如情节记忆）；

- 动作系统（Action System）：支持如跳舞、驾驶或打字等程序性技能。

SPI 模型认为记忆形成可发生在多个层级：仅依赖感知编码也能形成基本情节记忆，而更丰富的情节记忆则需借助语义中介。例如，语义痴呆症患者可能仍能形成一定的情节记忆，但由于语义网络受损，他们往往缺乏完整的情境细节。该模型突出了程序性记忆的直觉性和自动性，试图整合记忆的“结构”（即内容）与“功能”（即使用方式），突破了早期模型仅聚焦于显式存储与提取的局限。然而，批评者指出该模型在工作记忆如何与系统整合上描述不足，且认知与动作系统之间的反馈机制定义仍较模糊。

图3.4人类记忆的序列-并行-独立模型

全局工作空间理论（Global Workspace Theory, GWT）与 IDA/LIDA 框架

Baars 提出的 GWT 理论[196]将意识和工作记忆视为一种“广播系统”，能将信息分发至多个专门处理器。在此基础上，Franklin 推出 IDA（Intelligent Distribution Agent）模型，并进一步扩展为 LIDA（Learning IDA）[197,198]，构建了一个完整的认知架构。在这些模型中，多种记忆系统（如感知记忆、情节记忆、程序性记忆）通过迭代性的“认知周期”交互，全局工作空间作为注意力聚焦与决策的中枢。从人工智能的角度看，IDA/LIDA 展示了如何将类似人类的记忆过程系统化，实现智能体的知觉、行动选择与学习机制。

ACT-R 认知架构（Adaptive Control of Thought—Rational）

ACT-R 是一个广泛应用于认知建模的架构[199]，整合了记忆、知觉与动作机制，构建了一个统一的理论系统。它已被用于学习与记忆、问题求解、决策、语言理解、注意力、发展心理学与个体差异等多个领域。图 3.5 展示了 ACT-R 的基本过程。

图3.5：ACT-R模型的重要过程抽象描述

该架构包含多个独立模块（如视觉、手动、陈述性、程序性），模块间通过缓冲区（buffers）进行交互：

- 陈述性记忆（Declarative Memory）：以“知识块（chunk）”形式存储事实；

- 程序性记忆（Procedural Memory）：以 if–then规则形式存储操作与策略。

认知活动通过一个模式匹配机制（pattern matcher）展开，系统依据当前缓冲区状态选择并激活一个匹配规则。该符号系统还结合了次符号机制（subsymbolic processes），由数学方程控制激活水平、提取延迟和生产规则效用。ACT-R 同时涵盖了符号与次符号层面，为个体如何习得、提取并运用知识提供了可操作的机制解释，也有助于说明诸如反应时间、错误模式和学习轨迹等实证现象。

综上所述，这些模型分别从不同层面揭示了记忆的本质与机制：

- 多重存储模型提供了对记忆阶段的直观理解；

- 工作记忆模型强调对信息的主动维护与加工；

- SPI 模型、IDA/LIDA与ACT-R等框架则将记忆置于更宏观的认知系统中加以理解。

在实际研究中，学者们往往会结合多个模型视角，以更全面地揭示记忆的复杂结构及其在知觉、学习与适应性行为中的关键作用。

3.2 从人类记忆到智能体记忆

在阐明了人类记忆的基本原理之后，我们现在将重点放在基于大语言模型（LLM）的智能体如何管理与存储信息上。记忆不仅仅是一个存储机制，更是人类与人工智能的核心基础。记忆支撑认知，使人类能够学习、适应并解决复杂问题。类似地，对于基于LLM的智能体而言，记忆是维持上下文、从经验中学习，以及在时间维度上保持连贯行为的关键支撑。如果没有记忆，即便是能力极强的LLM也难以适应变化的环境，或在长时间交互中保持专注。

尽管基于LLM的智能体与生物系统在本质上存在根本差异，但人类记忆所遵循的原则——上下文保留、选择性遗忘和结构化提取——对智能体的设计仍具有高度参考价值。因此，研究人类记忆与人工记忆之间的类比与差异具有重要意义。在功能上，可以做如下类比：智能体的短期记忆缓冲区类似于前额皮层在工作记忆中的作用，而向向量数据库中的长期存储则可类比于海马体对情节记忆的巩固功能。智能体的记忆设计可以借鉴人类记忆中的机制，例如选择性注意、优先编码和基于线索的提取。

然而，两者之间也存在关键差异。人类记忆建立在生物神经网络的基础上，存储与计算融合于神经元之间的连接与活动模式中，这使其具备高度并行性与适应性。而当前智能体的记忆系统主要依赖于数字存储与算法操作，使用符号化表示和逻辑操作，将存储与计算过程相分离。这对信息处理方式产生了影响：人类记忆具有联想性和动态性，能够模糊匹配并进行创造性跳跃；而当前的智能体记忆依赖精确匹配与向量相似度，难以应对歧义。尽管数字存储的容量巨大，但它仍无法复制人类记忆的复杂性与动态特征，特别是在细微模式识别和长期稳定性方面。

人类记忆虽不完美，却擅长从噪声中提取关键信息。而当前的智能体记忆系统尚处于初级阶段，在组织性、信息整合、适应性遗忘与知识迁移方面仍存在诸多限制。

因此，为基于LLM的智能体设计一个专门的记忆模块至关重要。尽管外部知识库（如数据库、搜索引擎和API）提供了有价值的信息来源，它们却无法捕捉智能体的内部推理过程、部分中间推断或任务特定的上下文。一个真正的智能体记忆系统能够内化中间步骤、演化目标与历史对话，从而实现自我参考的探索与适应。这对于需要智能体在先前判断基础上进行延续性工作，或维护用户个性化目标理解的任务尤为关键。

早期的智能体记忆方法，如将对话历史附加到输入提示中（一种初级的工作记忆形式）[201]，已经不断演进。现代架构采用了更复杂的技术，包括使用向量嵌入来实现快速记忆检索[202]，以及将部分推理链有选择地融入后续的推断步骤中[203, 204]。这些多样化的方法都致力于在不影响系统响应性的前提下，有效管理大量的信息资源。

然而，与人类记忆的复杂性相比，当前的智能体方法仍存在诸多局限。许多系统缺乏连贯的长期记忆巩固策略，导致信息日志杂乱或出现信息突失。人类工作记忆中所体现的已存知识与当前处理之间的灵活、双向交互机制在多数智能体系统中仍未建立。同时，元认知机制——如选择性回忆、遗忘与警惕过时信息——在LLM智能体中仍十分欠缺。如何像人类一样在全面记忆回调与实际效率之间实现平衡，依然是关键挑战。

为构建稳健且适应性强的记忆系统，基于LLM的智能体需要回答以下三个核心研究问题：（1）记忆应如何表示，以捕捉多样的信息类型并实现高效访问？

（2）智能体记忆如何演化，以整合新经验、适应变化的上下文并保持一致性？

（3）存储的记忆如何有效增强推理能力、决策质量以及智能体的整体性能？

接下来的章节将深入探讨这些关键领域，分析当前方法、存在的限制以及未来可能的发展方向。

3.3 智能体记忆的表现形式

受到人类认知系统的启发[285]，当前智能体中的记忆架构采用了一种分层框架，该框架通过感觉记忆整合感知输入[205]，通过短期记忆实现实时决策[286, 287]，并通过长期记忆保持持续性知识[288, 289, 48]。这一多层结构使智能体能够同时处理即时任务与维持更广泛的上下文理解，从而增强其适应能力，并在多样化交互中实现无缝衔接。

具体而言，记忆系统的功能是将环境中的原始输入转化为结构化、可操作的表征。其中，感觉记忆作为入口，捕捉并有选择性地过滤感知信号，为后续的认知处理打下基础。短期记忆则在这些即时感知与任务层次理解之间建立连接，缓存近期的交互，并通过经验重放和状态管理机制实现动态适应。而长期记忆负责将信息在更长的时间范围内进行巩固与存储，从而支持跨任务的泛化能力和持久知识的积累。

这三类记忆共同构成了一个感知–理解–响应的闭环系统。该循环不仅支持智能体进行实时决策，还赋予其持续学习与进化的能力，体现了响应性与成长性之间的复杂平衡。接下来的内容将进一步探讨每种记忆类型的具体形式，深入分析它们在智能体认知架构中的独特角色与交互机制。

图3.6：智能体记忆模块的树状结构图

3.3.1 感知记忆

在人类认知系统中，感觉记忆是一种通过触觉、听觉、视觉等感官收集信息的机制，其特征是极其短暂的存在时间。类比而言，在智能体中，感觉记忆则表现为对文本、图像及其他感知数据的嵌入式表示，是环境信息处理的初始阶段，起到了将原始观测转化为有意义表征以供后续认知处理的入口作用。

智能体中的感觉记忆并非被动地接收信息，而是以动态的方式编码和过滤感知信号，将即时的感官输入与智能体的内部状态、目标以及先验知识相连接。这一适应性过程支持智能体对环境变化的快速感知、任务的连续性，以及实时的上下文感知信息处理。

为确保感知信息的相关性与聚焦性，感觉记忆层采用了复杂的注意力机制，这些机制构成了智能体决策与适应性的关键基础。

形式上，感觉记忆的形成包括三个连续步骤：

（1）感知编码：将原始的感官信号转化为可处理的表示；

（2）注意力选择：从中筛选出与当前任务或内部状态最相关的信号；

（3）瞬时保留：以短时方式保持这些编码结果供认知系统进一步处理。

首先，感知编码将原始感官信号转化为可处理的表征，其数学表达为：

其中，表示时间的感知输入，表示智能体在该时刻的内部状态。例如，RecAgent[205]使用基于大语言模型（LLM）的感觉记忆模块对原始观测数据进行编码，同时过滤噪声与无关内容。

不仅限于基于文本的感知，多模态感觉记忆系统如Jarvis-1[228]、VideoAgent[209]和 WorldGPT[210]通过整合多模态基础模型来处理来自不同模态的输入数据，实现了更丰富的感知能力。

接下来，注意力选择从已编码的感知数据中提取关键信息。该过程由注意力机制引导，其形式表示为：

其中，Ø表示对输入的编码结果，表示对输入的编码结果，表示影响注意力的上下文信息。例如，RecAgent[205]使用带有重要性评分系统的注意力机制，对压缩后的观测内容赋予相关性分数，从而优先保留诸如特定物品交互等关键输入，而对不太重要的行为则降低其权重。这一机制有助于提取高优先级信息以供后续记忆保留。

最后，瞬时保留（transient retention）阶段将被选中的感知信息以“感觉记忆”的形式暂时存储：

已经实施了多种策略来管理感觉记忆的时间窗口。例如，RecAgent[205]通过将每个观测与用户行为仿真环境中某一轮仿真的开始时间戳关联，来建模记忆的保留过程，其表示形式为一个三元组：⟨观测、重要性评分、时间戳⟩。

类似地，CoPS[206]使用固定大小的感觉记忆池作为时间窗口，该记忆池包含用户的搜索请求，用于个性化搜索，从而支持“重新查找”行为。当系统收到新查询时，首先会在感觉记忆中检索是否存在相关匹配项；如果找到匹配，则该查询会被分类为“重新查找”实例，从而触发快速的感觉响应。

3.3.2 短时记忆

在受认知启发的智能体中，短期记忆作为一个暂时且动态的工作空间，连接着感觉记忆与长期记忆。它对于存储与处理与任务相关的信息和最近的交互序列至关重要，支持实时决策和适应性行为。受到人类短期记忆与工作记忆机制的启发，智能体中的短期记忆暂时保留信息，以协助执行复杂的认知任务，确保操作过程的连贯性与连续性。

智能体的短期记忆可分为上下文记忆（context memory）和工作记忆（working memory）两类。

一方面，上下文记忆将上下文窗口视为LLM的短期记忆。例如，MemGPT[214]受操作系统中分层内存系统的启发，通过管理不同的存储层级来扩展LLM的上下文窗口限制。[290]提出了一种神经符号上下文记忆机制，通过实现符号规则的绑定与基于LLM的规则应用，增强了LLM的表现力。

另一方面，工作记忆则侧重于在智能体运行过程中获取并整合外部相关知识，以保留必要的信息。例如：

Generative Agent[50]使用短期记忆保存情境上下文，从而支持上下文敏感的决策制定。

Reflexion[48]采用滑动窗口机制捕捉与总结最近反馈，在保留详细即时经验的同时融入高层次抽象，从而提升适应能力。

RLP[218]维护对话者与听众的会话状态，并将其作为短期记忆提示，支持对话理解与生成。

在互动性与创造性游戏场景中：

CALYPSO[219]协助地下城主（Dungeon Master）进行《龙与地下城》的叙事构建，通过场景描述、怪物细节与剧情摘要建立短期记忆，实现自适应的叙事能力与动态互动。

类似地，Agent S[211]与 Synapse[291]专为基于图形界面（GUI）的自主计算机操作设计，其短期记忆定义为任务轨迹，包括点击按钮、输入文本等行为，从而支持行为克隆并提升在新型 GUI 导航任务中的适应性。

在机器人应用中：

SayPlan[292]利用场景图与环境反馈作为短期记忆，引导在可扩展机器人环境中的规划与执行。

KARMA[215]结合高效的、适应性的记忆替换机制来动态记录物体位置与状态的变化。

LLM-Planner[293]则通过对环境观测的迭代更新来刷新短期记忆，用于向LLM提供动态规划的提示信息。

3.3.3 长期记忆

在受认知启发的智能体中，长期记忆使其能够在较长时间内保留和提取信息，从而有效地进行知识泛化并适应新的上下文环境。不同于处理瞬时或即时数据的感觉记忆与短期记忆，长期记忆支持累积学习与跨任务的适应能力。它借鉴了人类长期记忆的结构，包含显性记忆与隐性记忆两个部分，从而实现更丰富的上下文理解和更直观的行为表达。

一方面，显性记忆涉及有意识的回忆，类似于人类的陈述性记忆。它包括：

语义记忆（semantic memory）：存储通用知识，如事实与概念。智能体的语义记忆可通过预加载领域知识库或通过交互动态获取。例如，在像TextWorld这样的环境中，语义记忆可存储结构化事实，如“Recipe−contains−Tuna”或“Recipe−is on−Table”。

情节记忆（episodic memory）：记录具体事件和交互历史。例如，“从厨房走到客厅，再到花园”等序列性操作。通过整合语义与情节记忆，智能体可以同时保留静态知识与情境信息，从而实现类人般的适应性与上下文感知响应。

另一方面，隐性记忆通过程序性记忆（procedural memory）与启动效应（priming）影响智能体行为：

程序性记忆使智能体能够通过回忆特定技能与可复用计划高效执行重复性任务。例如，它可在无需明确指令的情况下自动完成常规操作，提升任务执行效率。

启动效应则记录状态变化及相应反应，使智能体能够快速适应相似情境。它通过对观测的直接匹配或连续动作的链式触发，提升智能体在决策中的流畅性与上下文敏感性。

隐性记忆由智能体与其认知模块的交互塑造，即使在极少暴露于新刺激的情况下，也能快速适应。

目前，大多数智能体在其记忆模块中实现了语义记忆与情节记忆的融合。例如：

Agent S[211]（用于图形界面自动化任务）通过语义记忆以自然语言形式存储网页知识，而情节记忆则记录任务的高层次操作序列。

AriGraph[221]（用于具身仿真任务）通过事实图编码语义环境知识，并通过事件图记录导航过程的情节信息。

在像MemoryBank[207]为SiliconFriend构建的AI伴侣系统中，语义记忆用于构建用户画像（以自然语言表达），而情节记忆则保留与用户的互动历史，从而增强个性化和上下文感知能力。

在隐性记忆实现方面，当前的智能体系统通常采用模型友好的记忆结构，如键值对存储、可执行代码或可复用的操作模板。例如：

AAG[226]通过类比定义和泛化程序，将一种情境中的知识映射到另一种情境中。这类结构可以用线性有向链图表示：输入为根节点，输出为叶节点，中间步骤为链中的节点。

类似地，Cradle[227]和 Jarvis-1[228]通过以代码形式存储与调用技能来实现程序性记忆，这些技能既可预定义，也可从头学习。技能一旦建立，便可被添加、更新或组合存储在记忆系统中，并在执行任务时根据当前情境检索出最相关的技能，支持智能体的行为规划。

3.4 记忆的生命周期

在本节中，我们将介绍AI智能体中记忆的生命周期，如图3.7所示。该生命周期由两个主要过程构成：记忆保留（retention）与记忆检索（retrieval）。

其中，保留过程包括：

获取（acquisition）：智能体从环境中感知并收集信息。

编码（encoding）：将原始信息转化为结构化的内部表示，便于后续处理。

衍生（derivation）：在原始信息基础上推导出新的知识或关系，例如抽象总结、模式提取等。

而检索过程则包括：

记忆匹配（memory matching）：在已有记忆中查找与当前需求或上下文最相关的内容。

神经记忆网络（neural memory networks）：利用神经网络机制（如注意力或向量搜索）实现高效的记忆存取。

记忆利用（memory utilization）：将检索到的信息应用于推理、决策、行为生成等认知任务中。

这一完整的生命周期机制确保了智能体能够不断积累、优化并高效使用其知识和经验，从而实现长期适应性与认知能力的提升。

图3.7：记忆生命周期示意图。记忆保持过程包括三个连续步骤：记忆获取、编码和衍生；而记忆检索过程则涵盖多个独立的应用，包括：匹配（向量搜索）、神经记忆网络以及记忆利用（用于长上下文建模和幻觉缓解）

表3.1：不同智能体的记忆模块总结（参考图3.6中的缩写）

3.4.1 记忆获取

记忆获取是智能体从其环境中接收原始感知信息的基础过程。这一初始步骤对于后续的学习、适应和决策制定至关重要[305]。获取过程面临的主要挑战之一，是环境输入在体量和复杂性上的巨大差异。智能体不断接收到视觉、听觉、文本等多种形式的数据，其中大部分可能与当前目标无关或是冗余信息。

因此，记忆获取的核心不在于“全部捕获”，而在于启动初步的过滤机制。这一过滤主要依赖两种机制：信息初步压缩与经验整合。

在这一阶段，信息压缩采用初级技术对数据维度进行简化，例如：

对图像进行降采样、

通过简单启发式从文本中提取关键词、

检测音频流中的显著变化[306]。

目标是进行快速、有损压缩，从而优先保留可能相关的信息。例如，LMAgent[230]会提示LLM进行信息压缩，以在构建感觉记忆时去除无关与不重要的内容，从而提升运行效率。而 ReadAgent[231]与GraphRead[307]则分别采用不同策略对长文本进行压缩，例如通过情节分页或基于图的结构化表达，以实现信息保留与效率之间的平衡。

另一方面，经验整合虽处于获取阶段，也开始发挥作用。此时智能体尚未形成丰富的长期记忆，但可借助先前学习到的通用规则或偏好进行初步判断。例如，如果智能体预设对“移动物体”更敏感，即使尚未完成编码，也会优先处理包含运动的视觉数据[308]。

为增强基于记忆的动态经验整合，[235]定义了如上下文相关性与回忆频率等度量指标，用以判断是否将当前信息写入向量数据库中的长期记忆。

Expel[69]构建了一个经验池（experience pool），用于收集与提取训练任务中的洞见，以此促进对未见任务的泛化能力。而近期提出的 MindOS[233]则设计了一个以工作记忆为中心的中央处理模块，用于构建自主的AI智能体。在该框架中，工作记忆将与任务相关的经验整合为结构化思维，以指导未来的决策与行动。

上述两种机制与LLM的初始输入协同工作，以应对记忆获取阶段的核心挑战。为实现这一点，智能体必须具备机制，能够快速评估新输入信息的潜在相关性。这一初步过滤过程对于避免认知过载至关重要。

此外，获取阶段本身也可从LLM的能力中获益。通过提示工程、信息选择策略与轻量化总结技巧，LLM 可以在接收原始感知信息的同时，辅助执行压缩、去噪与组织等处理任务，从而提升整个系统的处理效率与感知质量。

3.4.2 记忆编码

记忆编码是在获取阶段的基础上进行的过程，其核心任务是将已过滤的感知信息转化为适合存储和后续使用的内部表示。编码的关键在于选择性过滤，这一机制模仿了人类的认知过程[309]。编码面临的主要挑战包括：原始感知数据的复杂性、高维特征以及易受噪声干扰等。有效的编码过程需要借助先进的机制来识别关键信息、进行紧凑压缩，并整合来自多种模态的信息。

现代方法通过引入选择性注意力（Selective Attention）和多模态融合（Multi-modal Fusion）来应对上述挑战。

选择性注意力（Selective Attention）

受人类认知启发，选择性注意机制允许智能体动态地将计算资源集中于输入中最相关的部分。这可能表现为：

- 图像中的特定区域，

- 文本中的关键词，

- 音频信号中的特定频段。

不同模态和任务下可采用不同的注意力机制。例如：

- MS[237]在候选记忆动态扩展的过程中，使用基于LLM的评分器，仅保留得分排名前一半的信息，从而在多个智能体系统之间构建更加紧凑的共享记忆。

- GraphVideoAgent[238]采用图结构记忆实现视频场景的多轮选择性理解，提升了视频问答能力。

- 在机器人控制中，[240]将选择性注意机制实现为过滤器，从所有感知到的物体中提取出与任务相关的对象。

多模态融合（Multi-modal Fusion）

为了整合来自不同感官输入的信息（例如将视觉与听觉数据结合以理解场景），多模态融合机制至关重要。其目标是构建一个统一的表示空间，使得来自不同模态的特征能够对齐。常用方法包括：

- 跨模态编码器（Cross-modal Encoders），

- 对比学习（Contrastive Learning）。

具体示例包括：

- JARVIS-1[228]利用通用的视频-语言模型 CLIP[51]在多模态键值记忆中建立对齐关系：

- - 键（key）包括任务、计划与视觉观测，

- - 值（value）为已成功执行计划的文本表示。

- 这一结构可增强跨模态的信息调用与推理能力。Optimus-1[241]则进一步优化了多模态编码器与记忆表征，它使用 MineCLIP[311]（在 Minecraft 游戏中预训练的视频-语言模型）对过滤后的视频流与文本指令进行对齐与融合，并将这些经验编码为抽象记忆池，从而支持更复杂的行为决策。

这些集成式表示不仅提升了信息检索与多模态推理能力，也充当了额外的过滤器，强化了数据一致性。此外，LLM 对语义的理解能力也在编码过程中发挥作用，帮助智能体更高效地提取与任务相关的关键特征。

3.4.3 记忆衍生

记忆衍生（Memory Derivation）关注的是从已获取并编码的记忆中提取有意义的知识与洞见。这一过程不仅仅是对信息的存储，更是智能体学习能力增强的关键阶段，其目标是不断优化记忆结构与内容，使其更具表达性、泛化能力和任务适应性。

记忆衍生所面临的重要挑战是如何动态评估信息价值。当前的研究主要通过以下策略来应对这些挑战：

（1）反思（Reflection）

反思机制使智能体能够主动分析自身记忆，识别模式、关系及潜在的不一致性。它可以由特定事件（如意外结果）触发，也可以作为周期性后台进程自动运行。具体行为包括：

比较记忆内容；

推理因果关系；

生成假设[300]。

应用示例：

ExpeL[69]利用反思机制收集过往经验，以便泛化到新任务或在失败后支持试错式重试。

R2D2[243]将记忆建模为重放缓冲区，应用反思对失败的执行轨迹进行纠正，并与成功轨迹结合构建反思记忆，为后续决策提供参考。

（2）总结（Summarization）

总结机制旨在从大量信息中提炼关键内容，以紧凑表达其核心信息。这包括：

提取文档中的关键句；

对对话进行抽象总结；

对事件序列进行压缩等。

方法从传统提取式总结到依赖LLM的抽象式总结均有涵盖[245, 312, 246]。

应用示例：

文献[248]提出了递归式对话历史总结策略，用于支持长期对话记忆的衍生；

Healthcare Copilot[247]将完整医疗对话压缩为“历史记忆”，仅保留与患者病史相关的关键信息。

（3）知识蒸馏（Knowledge Distillation）

知识蒸馏支持将大型或复杂模型中的知识迁移到更小、更高效的模型中，对资源有限的智能体或提升泛化能力尤为重要。蒸馏过程也可将多个专业模型的知识融合到一个通用模型中。

应用示例：

AoTD[250]从子任务的执行轨迹中提炼出思维链条，用于训练视频问答任务中的 Video-LLM；

LDPD[251]将专家智能体（教师）的决策结果传递给学生智能体，优化其策略；

在多智能体系统中，MAGDi[253]将多个LLM的推理交互结构化为图，并蒸馏成小模型，提高小型LLM的推理能力。

（4）选择性遗忘（Selective Forgetting）

遗忘机制通过移除或降低无关、冗余或过时的记忆的重要性，来提升记忆系统的效率并防止认知过载。

常用的遗忘依据包括：

时间维度（越旧的记忆越易被遗忘）[247]；

使用频率（很少被调用的记忆更易被丢弃）[203]；

任务相关性（与当前上下文关系弱的内容被淡化）[255]。

更精细的机制示例：

MemoryBank[207]应用了艾宾浩斯遗忘曲线，结合时间衰退与间隔效应评估遗忘率，即“重复学习比首次学习更容易”；

Lyfe Agent[254]采用分层总结与遗忘策略：先对相关记忆进行聚类与摘要，再删除与新记忆相似度高的旧记忆，从而实现高效、低成本的实时社交记忆更新。

总体来看，记忆衍生机制使得智能体能够提炼精华、整合知识、优化认知资源分配，是构建强大、可泛化、可持续学习的AI系统的核心组成部分。

3.4.4 记忆检索

记忆检索（Memory Retrieval）是模拟人类回忆相关知识与经验以解决问题的过程，其目标是从庞大且多样的记忆池中高效且准确地提取最相关的记忆片段，以支持智能体的决策、规划与行动。正如人类依赖过往经验应对复杂情境，智能体也需要复杂的记忆检索机制来胜任各种任务。

然而，实现这一目标面临多个重大挑战：

（1）核心挑战

记忆异构性强：智能体的记忆库通常包括不同形式的数据，如自然语言描述、结构化知识图谱、状态-动作-奖励序列等。这些记忆在数据结构、表示方式及语义粒度上存在显著差异，使统一检索变得困难。

上下文相关性要求高：检索到的记忆片段必须与当前上下文（包括智能体的状态、任务目标与环境观察）高度相关。简单的关键词匹配难以捕捉所需的深层语义关系，因此亟需具备上下文感知能力的语义匹配机制。

实时性要求强：智能体需实时与环境交互，因此记忆检索必须高效，以支持快速决策与响应。而实际中，计算资源受限进一步加剧了效率需求。

记忆动态变化：智能体的记忆不是静态的，它会随着新经验、知识和技能的获取不断演化。这要求记忆系统能保持时效性、可靠性与相关性，并避免过时或错误信息的干扰。

（2）解决方案框架

为应对上述挑战，一个全面的记忆检索系统通常包含以下四个核心组件：

统一表示与索引机制（Memory Representation & Indexing）

- 目的：弥合不同记忆类型之间的表示差异，将其统一嵌入到共享的向量空间中；

- 技术手段：

- - 使用如BERT或Sentence-BERT[316]将文本记忆转化为语义向量；

- - 对结构化记忆（如知识图谱）使用图神经网络（GNN），学习节点和边的关系表示[317]；

- 索引结构：

- - 倒排索引用于关键词检索；

- - 向量索引（如 Faiss[318]、Annoy[319]）用于相似度搜索；

- - 图索引支持结构化查询[320]；

- - 组合以上手段构建多层混合索引结构，以满足多样化查询需求。

上下文感知语义匹配（Context-Aware Semantic Matching）

- 关键任务：使检索机制能够理解并利用当前上下文（状态、目标、观测等）；

- 实现方式：

- - 将上下文信息编码为向量；

- - 与记忆向量融合计算相似度；

- 注意力机制在其中发挥关键作用：

- - 动态计算上下文与记忆片段之间的相关性；

- - 为不同记忆赋予不同权重，强调与当前任务更密切的内容[261]。

通过这类机制，记忆检索不再是简单的信息查找，而是具有认知能力的智能行为，能够支持跨模态、跨任务与实时适应性决策，是构建强大智能体系统的基础模块之一。接下来的部分将进一步介绍检索过程中的神经网络应用与记忆利用策略。

（3）将记忆检索与智能体的任务执行过程整合

需要引入面向任务的序列决策与动态路由机制。该机制利用任务的结构信息来引导记忆的调用与利用，从而支持复杂任务的分解、规划与动态调整。

具体而言，智能体可以构建一个任务依赖图（task dependency graph），通过拓扑排序确定各子任务的执行顺序。在执行过程中，每个子任务的目标都作为上下文输入，用于引导相关记忆的检索，获取所需的知识与经验。同时，智能体需根据环境反馈与任务进度不断调整执行计划。在每一个决策点，系统都会根据当前状态与目标重新进行记忆检索，以选择最优行为并应对突发情况。

这一过程也强调了智能体如何利用其技能记忆（skill memory）进行问题求解。技能记忆相关的能力包括：

技能蒸馏：从具体任务中提取通用操作；

技能组合：将多个技能整合以应对复杂挑战；

技能创新：在新情境中形成新的组合方式。

例如，通过模式识别，智能体可以总结出一般性的问题求解步骤；再通过结构化的知识组织，将技能转化为可检索的形式。智能体不仅能够从具体任务中提炼技能，还能通过组合与重构形成新的能力，这些都依赖于一个高效的记忆检索系统，能够基于任务需求识别并调用合适的技能或技能组合。

3.4.5 神经记忆网络

神经记忆网络（Neural Memory Networks）代表了人工智能研究中的一个前沿方向，其目标是在神经网络结构中无缝整合记忆功能。这种方法区别于传统的记忆架构，不再依赖外部存储模块，而是将记忆直接编码进神经网络的权重或激活状态中，从而使整个网络本身成为一个动态的读写记忆体。这种紧密整合的方式有望大幅提升信息存储与利用的效率。

然而，实现这一愿景也面临着一系列严峻挑战：

（1）主要挑战

记忆容量与稳定性之间的权衡：

要在神经网络有限的参数空间内存储大量信息，并确保长期稳定性，是一个关键难题。网络需要能够存储多种记忆，同时避免灾难性遗忘或在相似记忆之间产生混淆。

有效的读写机制：

- 网络必须能够：写入新信息；

- 更新已有记忆；

- 在需要时可靠地检索存储信息；

- 并保持较高的计算效率。

超越记忆，支持泛化与推理：

理想的神经记忆网络不仅能够“记住”，更应具备利用已存知识进行推理与认知建构的能力，形成对过去经验的洞察性连接，而非死记硬背。

（2）两大研究方向

联想记忆（Associative Memory）

受生物神经元联结性的启发，联想记忆提供了通过神经连接权重进行记忆检索的方法：

- Hopfield网络[262, 263]：利用能量函数进行稳定模式存储；

- 双向联想记忆（BAM）[322]：支持异构记忆的相互检索；

- 神经图灵机（NTM）[264]与记忆增强神经网络（MANN）[323–325]：增设外部记忆模块，并通过注意力机制与摘要机制进行交互。

这些模型通过增加读写机制或结构化记忆访问，提高了神经网络的信息存储与使用能力。

参数记忆（Parameter Integration）

该方法尝试直接在网络权重中编码记忆，使得世界知识与经验可直接影响模型的行为：

- 一些研究通过参数更新机制支持持续学习[325–327]或选择性遗忘[328]；

- 另有研究将LLM本身视作记忆体，在预训练[329]、后训练微调[330]和在线部署[331]中不断注入知识；

- MemoryLLM[265]引入“记忆token”，而SELF-PARAM[266]结合知识蒸馏技术将知识嵌入权重；

- M+模型[332]通过联合训练的检索器与长期记忆机制，实现对较长历史的泛化记忆；

- MemoRAG[267]与R3Mem[270]更进一步，将记忆存储与检索集成于同一模型中，推动了生成式检索系统的发展；

- Titans[269]结合元学习，实现对测试时数据点的快速记忆与跨任务泛化。

（3）未来研究方向

更大容量与更高稳定性的神经记忆模型；

更高效、更灵活的读写机制；

将神经记忆网络广泛应用于复杂认知任务，如跨任务推理、长期对话、策略规划等；

实现更类人化的认知行为，使AI系统能够像人类一样进行学习、记忆与推理。

随着这些研究的深入，神经记忆网络将推动新一代智能体的构建，使其具备更持久、更自适应、更智能的行为能力，为实现类人AI奠定坚实基础。

3.4.6 记忆利用

记忆利用（Memory Utilization）是智能体设计中的关键环节，旨在最大化存储记忆在当前任务中的应用价值。其核心目标是使智能体能够有效、恰当地调用记忆内容，从而提升推理、决策、规划与行为生成的能力，提高整体表现与运行效率，同时避免因记忆不相关或错误干扰而导致的系统偏差。

（1）面临的挑战

海量记忆与高效调用之间的矛盾：

智能体面对庞大记忆库，需平衡信息覆盖与处理效率，避免信息过载。抽象与泛化能力的需求：

智能体不仅要记住具体细节，更要从中提炼出通用知识，应用于新情境中。LLM幻觉（hallucination）与错误记忆的干扰：

模型可能生成与事实不符的内容，或引用过时/错误的记忆片段，因此需要具备识别与纠正机制，防止误导行为。

（2）主要应对策略

检索增强生成（Retrieval-Augmented Generation, RAG）

RAG 机制结合了“检索”与“生成”，在生成内容之前，先检索相关记忆片段作为上下文输入，增强输出的事实性与针对性；不同于传统的检索匹配，RAG 注重将检索结果主动注入生成流程中；示例：

- 回答用户问题时，先从知识库中检索相关内容，再基于该内容生成答案；

- 如 Atlas[273]使用因果中介分析判断是否需要检索；

- [284]使用一致性检测识别幻觉，确定是否需调用外部记忆。

此外，RAG 的一些扩展机制：

- RAGLAB[271]提供了 RAG 算法的分析与评估平台；

- HippoRAG[222]借鉴人类海马体的索引理论，使用知识图与 Personalized PageRank 进行记忆检索；

- 自适应检索机制与反思机制[272, 274]被纳入 RAG 中以提升生成质量。

长上下文建模（Long-Context Modeling）

长上下文建模增强了智能体处理长序列与大规模记忆的能力，关键手段包括：

- 结构改进型Transformer：

- - 如 Transformer-XL[324]、Longformer[335]、RMT[275, 276]，扩展了模型的上下文窗口；

- - 适用于长文档处理、持续对话、跨轮推理等任务。

- 记忆压缩机制：

- - AutoCompressor[277]利用摘要向量将历史信息转移到当前窗口；

- - ICAE[278]使用自动编码器生成代表原始上下文的“记忆槽”；

- - LLMLingua、Gist[279]、CompAct[280]优化长提示压缩，减少输入长度，提升记忆访问效率。

幻觉缓解机制（Hallucination Mitigation）

为避免生成不真实或矛盾内容，可使用以下方法：

- 事实核查机制（Fact-Checking）：将输出内容与记忆/知识库比对，验证其真实性[338]；

- 不确定性估计（Uncertainty Estimation）：评估输出的可信度，对低置信结果进行过滤[339, 340]；

- 基于知识的解码（Knowledge-Constrained Decoding）：在生成过程中引入约束，引导模型输出更贴近事实的结果。

专家记忆子网络（Expert Memory Subnetworks）

为减少主模型的记忆负担，可引入专门记忆模块：如PEER[283]、Lamini Memory Tuning[281]，专注于世界知识或过往经验的记忆；也可以通过专用参数存储特定类型的信息，降低幻觉发生率，并提升可控性与可靠性。

通过这些记忆利用机制，智能体可以：

更精准地调用自身知识；

实现高效生成、复杂规划与跨任务泛化；

在处理大规模、多模态信息时表现出更强的认知能力与稳定性。

未来，这些策略将进一步推动LLM智能体向高可靠性、高可解释性、高适应性的方向发展，使其在教育、科研、医疗、产业等场景中具备更广阔的应用潜力。

3.5 总结和讨论

真正实现智能体的关键不仅在于构建强大的记忆系统，更在于将这些记忆系统无缝整合进智能体的其它认知功能中，如感知、规划、推理与行动选择。记忆不是一个孤立的模块，而是与这些核心过程深度交织的：

感知与记忆的交互：感官输入在存储前需经过编码与过滤（在记忆表征与生命周期章节中已详述）；

长期记忆与行动选择的联动：尤其是程序性记忆，可通过技能和例程直接影响行为；

规划依赖记忆检索机制：如上下文感知语义匹配等，用于回溯经验并制定行动策略；

世界模型（World Model）的支撑作用：作为记忆的重要输出形式，是智能体对环境理解的内部表示。

世界模型对于智能体而言是核心组件之一：

它可支持环境模拟、因果推理与未来预测；

本质上是一种结构化、预测性极强的长期记忆系统；

记忆为世界模型提供原材料，如知识与经验；

世界模型反过来又决定哪些记忆被编码、巩固或检索，例如可能优先存储异常事件以补足认知盲区。

但是，构建高效的世界模型与记忆系统需面对以下挑战：

1. 环境复杂性管理：现实世界的数据是动态、冗余与多模态的；

2. 抽象层次设计：如何在准确性、复杂度与效率之间取得平衡；

3. 多模态信息整合：整合图像、语言、动作等信息建模；

4. 持续学习与泛化能力：模型需要不断更新并避免偏差；

5. 预测的不确定性管理：用于支持规划的模型需可被高效搜索与推理。

尽管当前智能体的记忆能力已显著提升，但相比人类记忆仍存在巨大差距：

● 人类记忆高度关联，能从不完整或模糊的线索中回忆信息；

● 拥有复杂的“遗忘”机制，通过抽象与整合选择性保留关键信息；

● 与之相比，当前智能体多依赖精确匹配机制，难以应对模糊性与上下文变化。

未来值得探索的方向包括：

● 类脑记忆机制（Biologically-Inspired Memory）：如神经记忆网络等架构，有望弥合表征、存储与推理之间的鸿沟；结合注意力机制、外部记忆模块与可训练读写控制器，提高灵活性与容量。

● 主动记忆管理（Memory Curation）：引入“元认知能力”：智能体能反思自己的记忆；检测信息矛盾；综合旧有知识以生成新洞见；支持动态过滤、修复错误与内容重构。● 更丰富的情节性记忆（Episodic Memory）：不仅记录“做了什么（what）”和“什么时候（when）”，还应包含：事件的原因（why）；情绪背景（emotion）；有助于人机互动的自然化、情境理解与共情能力。

最后的结语，只有在深度学习、强化学习与认知科学的交汇处提出创新解决方案，才能突破现有限制。未来构建的智能体需要具备：

● 更加复杂与适应性强的世界模型；

● 更类人、更高效的记忆系统。

这将推动智能体从“执行者”向真正理解世界并能与人类展开有意义交互的认知体迈进。