仅程序性记忆不足以满足需求

最新推荐文章于 2025-12-05 11:17:30 发布

原创最新推荐文章于 2025-12-05 11:17:30 发布 · 859 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

弥合基于LLM的代理中的认知差距

Schaun Wheeler
aampe
North卡罗来纳州，美国
schaun@aampe.com

摘要

大型语言模型（LLMs）代表了人工智能（AI）领域的一项里程碑式成就，在诸如文本生成、代码补全和对话连贯性等程序性任务中展现出前所未有的熟练度。这些能力源于其架构，该架构模仿了人类的程序性记忆——大脑通过练习自动化重复且模式驱动任务的能力。然而，随着LLMs在实际应用中的日益普及，它们在复杂、不可预测环境中操作时的局限性变得无法忽视。本文认为，尽管LLMs具有变革性，但从根本上来说，它们受到对程序性记忆依赖的限制。为了创建能够在“恶劣”学习环境中导航的代理——其中规则不断变化、反馈模糊且新颖性是常态——我们必须通过语义记忆和关联学习系统来增强LLMs。通过采用将这些认知功能解耦的模块化架构，我们可以弥合狭隘的程序性专长与现实世界问题解决所需的适应性智能之间的差距。

ACM参考格式：

Schaun Wheeler 和 Olivier Jeunen. 2025. 仅程序性记忆不足以满足需求：弥合基于LLM的代理中的认知差距。In Adjunct Proceedings of the 33rd ACM Conference on User Modeling, Adaptation and Personalization (UMAP Adjunct '25)，June 16-19, 2025, 纽约市，纽约州，美国。ACM, 纽约，纽约州，美国，5 pages. https://doi.org/10.1145/3708319.3734172

1 LLMs在自主决策中的认知局限性

大型语言模型在生成流畅的程序性输出方面表现出色，但在面对动态的“恶劣”环境时往往表现不佳，这些环境需要灵活的推理和记忆召回。在本文中，我们首先提供了一个基于认知科学的分析，解释为何以程序性记忆为中心的LLM架构在复杂的任务中失败，并提出一个模块化系统，通过专门的语义和关联记忆组件来增强LLMs，以支持因果决策。然后我们回顾了LLMs中程序性记忆的局限性，详细说明了我们的三部分模块化架构，并将我们的方法与相关工作进行比较，展示其优势。

Olivier Jeunen

aampe
安特卫普，比利时
olivier@aampe.com

1.1 LLM架构

LLMs通过基于transformer的序列建模架构作为代理行为者运行。其核心机制——程序性记忆——是通过自注意力层实现的，这些层统计地模拟了跨大规模文本语料库的标记共现模式 [26]。

LLMs通过计算输入标记上的注意力权重来生成输出。这种机制捕捉局部和全局依赖关系，使得能够对下一个标记进行概率预测。类似于基底神经节中的程序性记忆，它通过重复执行任务加强突触连接（例如，钢琴练习）[5]，LLMs在训练期间细化注意力权重以自动完成模式。

LLMs经常返回事实不正确的信息，因为其程序性记忆被训练用来通过加权标记共现来预测序列，生成的输出基于其训练数据中的统计可能性，而不是基于真实情况 [20]。语言模式和现实世界事实之间的噪声在模型可能的标记延续和验证知识之间产生了差距。“幻觉”或“虚构”（流畅但无根据的标记延续 [21]），因此当统计先验覆盖事实精度时出现。

简而言之，LLMs缺乏情景记忆。试图克服这一点的一种尝试是结合检索增强生成（RAG）系统，将密集检索器与LLM相结合 [12]，使LLM的输出基于查询和文档。尽管这是朝着正确方向迈出的一步，但此架构仍然存在根本性限制。

1.2 程序性记忆的局限性

即使由RAG系统增强，LLM架构仍表现出几个关键的局限性：

LLMs没有持久状态，这意味着除非相关信息明确包含在输入提示中，否则它们无法保留来自先前交互的信息。每次推理都是独立的前向传递，除非通过提示明确重新注入，否则不会保留之前的交互。
- LLMs受固定长度上下文窗口的限制（通常为几千到几十万个标记），这限制了它们处理或回忆长时间信息序列的能力。即使具有大窗口的模型也会截断或丢弃先前的上下文 [9]，违反了情景推理所需的连续性（即回忆和整合特定过去经验的能力，包括其时间和情境细节，以告知当前决策 [15]）。
- LLMs没有一种记忆巩固机制来随时间整合和保留所学到的经验。人类通过海马体回放将情景记忆整合到长期存储中 [16]。最近的发展引入了存储过去交互摘要的机制，以在LLMs中模拟记忆巩固 [30]，但这些方法只捕获表面级摘要，而非将经验整合到结构化知识中或根据相关性或情境进行灵活回忆。
即使有RAG，检索到的文档也被注入为静态上下文标记 [6]。不像生物情景记忆那样可以动态更新和重新加权过去的经历，RAG无法在交互过程中修订检索到的知识（例如记录冲突的事实）。
- LLMs没有元学习机制。在推理过程中，LLM依赖于固定的参数，将检索到的数据作为上下文处理，而不会修改其注意力机制 [14]。不像人类那样可以根据新见解重塑注意力，这限制了实时适应能力。
  客户服务LLM很好地体现了这些局限性。由于它是无状态的，除非用户明确重复细节或系统重新注入到提示中，否则它会忘记过去的交互。其固定的上下文窗口意味着之前的消息可能会被截断，阻止无缝的情景推理。不像人类记忆那样，它无法将关键细节（如用户反复投诉延迟发货）整合到长期存储中。即使有RAG，检索到的记录也是静态的，无法在会话中途更新，这意味着冲突信息（例如初始延迟估计与后来的更新）不能动态调和。最后，由于缺乏元学习，LLM不会随着时间推移改进如何处理此类交互，迫使用户重复提供相同的上下文，而不是从积累的经验中受益。

可以说，基于用户历史的微调可以模拟情景记忆。然而，微调会导致灾难性遗忘：更新权重以适应新数据会降低对先前任务的性能 [7]。生物情景记忆通过神经发生和稀疏编码避免了这一点 [29]，而变压器并未复制这一点。

所有这些挑战都不是LLMs特有的。它们是程序性记忆特有的。问题不在于LLMs的实现，而在于其架构基础。

1.3 对非程序性记忆的需求

除了受限于程序性记忆（加上有问题的情景记忆实现）的固有限制外，LLMs还表现出语义记忆的空白。LLMs将知识编码为高维潜在空间中的密集、重叠向量表示。虽然这些嵌入捕捉了统计关系（例如，“巴黎对于法国就像东京对于日本一样”），但它们缺乏明确的层次结构（没有离散节点用于事实——例如，“用户X偏好环保产品”），并且没有符号接地（向量混淆了句法、语义和语用特征）。

虽然嵌入形成集群（例如，动物与车辆），但它们无法进行组合推理（例如，推导“如果所有哺乳动物呼吸空气，鲸鱼是哺乳动物，那么鲸鱼呼吸空气”）的概率推理。LLMs通过识别训练数据中的模式来泛化逻辑结构。这远未达到真正的语义推理，因此LLMs常常在需要严格逻辑一致性的场景中失败。LLMs还表现出系统的关联盲点。变压器建模成对的标记交互，但在需要链式推理或跨情境链接的高阶关联上挣扎 [17]。

例如，将用户的“透明度”偏好（来自运输投诉）与“详细成分列表”（在食品应用中）关联起来需要推导抽象原则，而不是标记共现。这是一个架构约束，而不是训练或数据的限制。注意力头专注于局部上下文，限制了跨会话推理。而人类通过双向海马皮质通路链接概念，变压器则单向处理信息（输入导致输出，反之不然）。

可以说，链式思维提示能够实现多步推理 [28]，但链式思维依赖于程序性模式扩展，而不是关联绑定。它无法动态链接在不同会话中学到的概念（例如，将用户的旅行偏好与其购物习惯连接起来）。尽管弹性权重巩固（保存重要参数以减少遗忘）和动态上下文窗口管理（例如，循环内存变压器扩展超出固定令牌限制）等进展在解决某些LLMs限制方面取得了进展，但仍受制于基本架构不匹配。弹性权重巩固已被证明可以在“温和”的学习环境中缓解灾难性遗忘（Atari游戏）[10]，但尚未证明这种方法在持续的非平稳学习中表现如何，其中反馈循环稀疏且模糊。

同样，尽管动态上下文窗口改善了记忆保留 [27]，但它们仍然受制于变压器的程序框架，因此受该框架的一般架构限制影响——处理标记而非离散概念，缺乏接口以接地语义或将奖励与特定知识结构关联。

问题不仅在于LLMs是否可以通过扩展来克服动态记忆系统的缺失，还在于是否更现实地调整一个架构以做它未设计的事情——强迫变压器模仿情景和语义记忆——或者附加一个专门为这些功能设计的架构。附加新组件可能会导致对提示工程或检索启发式的脆弱依赖。重新思考架构允许更原则化的交互模式和有针对性的学习。

1.4 模块化AI的需求

AI代理不需要像人类那样思考才能有用。事实上，生物系统是在约束下进化（例如，能源效率）[13]，而非最佳设计，因此试图精确复制人类认知系统可能是次优的方法。无论如何，模块化AI架构是补偿变压器限制的实用工程选择，而不是试图复制生物学。LLMs的程序性能力无可否认，但其架构刚性——静态参数、密集嵌入和单向处理——使其在不确定或“恶劣”环境中进行决策时不足。
虽然微调、RAG和链式思维等技术可以缓解具体问题，但未能解决动态记忆系统的核心缺失。前进的道路在于混合架构，将LLMs与关联和语义模块配对，明确设计用于增量学习和跨情境推理。

2 学习环境

代理成功自主行动的能力与其运行的学习环境结构密不可分。学习环境是一个根植于认知科学和决策研究的概念。心理学家Robin Hogarth关于“良好”和“恶劣”学习环境的框架对代理设计有重要意义 [8]。在Hogarth最初对学习环境的定义中，良好环境由稳定规则、重复模式和清晰反馈定义。例如国际象棋、标准化测试和按照食谱烹饪。在这样的环境中，结果是即时且直接归因于行动（例如，国际象棋移动导致胜负）。统计规律主导，使基于模式的策略得以实施。相反，恶劣学习环境则以动态规则、稀疏或模糊反馈和新颖性为特征。例如创业、医疗诊断和客户互动。结果可能在行动之后很久才显现（例如营销活动对品牌忠诚度的影响），并且底层数据分布随时间变化（例如消费者偏好的演变）。Hogarth认为，人类直觉在良好环境中表现出色，但在恶劣环境中失效，需要有意分析策略。

LLMs是人类直觉的体现，并通过语言展现出来。LLMs在良好环境中因其基于transformer的模式匹配而表现出色。例如：给定一个错误消息，LLM通过与训练数据中的修复模式相关联来预测代码修复。即使在这些极其稳定且众所周知的环境中，LLMs仍然过度拟合训练分布，导致其在超出语料库的边缘案例上失败 [1]。

LLMs无法成功导航恶劣学习环境。例如，一个在零售对话上训练的LLM聊天机器人可以处理像“查找海军蓝衬衫”这样的查询（记录检索是一个良好的学习环境），但如果用户在收到推荐后突然退出会话，则会失败。LLMs将每次交互视为独立序列，没有对先前会话的持久记忆。用户的退出可能表明不满、分心或犹豫——一个LLM无法解释的恶劣反馈信号。LLMs假设基于其训练数据的固定数据分布，但恶劣环境要求适应训练数据之外的分布。

可以说，LLMs可以通过微调处理恶劣学习环境，但(i) 在新数据上微调会覆盖先前权重，降低对原始任务的性能（灾难性遗忘），(ii) 持续微调在大多数情况下对于实时适应来说既不切实际也不经济可行。“良好与恶劣”二分法（当然，更像一个连续光谱而非硬性分类）需要不同的技术策略：在良好学习环境中，我们可以利用LLMs的程序性优势；而在恶劣学习环境中，代理需要语义-关联记忆才能适当地适应。

3 增强LLMs的模块化语义-关联系统

为了在恶劣环境中实现稳健的决策制定，我们提出了一种模块化架构，其中代理学习者（语义-关联系统）独立于代理行为者（LLMs）运作。这种分离确保了专门的认知能力：学习者通过强化学习（RL）[22]专注于适应性推理，而行为者则处理程序性执行。

LLMs充当上下文绑定代理，仅限于处理它们接收到的输入。其架构防止了三个关键能力：(i) 跨会话保留提炼出的学习成果，(ii) 动态关联动作与结果（无需显式用户反馈），或 (iii) 自主扩展其上下文。这不是规模问题——这是变压器无状态设计的固有特性。然而，为了成功导航恶劣学习环境，需要代理学习者，他们能够通过探索和链接语义类别来逐步构建上下文。

代理学习者输入动作——更准确地说，他们输入一系列用户交互的不同动作，并通过无模型RL和探索-开发机制（如Thompson采样）[23] 构建上下文元数据，然后可以使用这些元数据来选择下一步最佳动作，可选地通过将这些元数据传递给代理行为者来生成那些动作。代理学习者可以同时在多个动作集上操作。

客户互动——通过个性化互动影响用户行为的持续过程——是一个典型的恶劣学习环境示例。成功需要适应不断变化的偏好、解释模糊信号（例如，购买可能表示满意或仅仅是顺从），并在没有明确规则的情况下发展策略。传统LLMs在此处失败，因为它们将每次互动视为独立的，无法将结果与语义提炼联系起来，因此无法在会话间建立合理整洁且高效的记忆上下文。我们提出的架构将适应与执行分开。一个独立的学习模块处理纵向推理：跟踪哪些策略对特定用户有效，将原因（例如，沟通的时间和频率、渠道、推荐方法、文案元素等）与效果（例如，用户参与指标）关联起来，并随着新数据的到来完善其理解。然后LLM将这些提炼的洞察转化为自然语言，专注于连贯响应生成。

这种分工各司其职。学习者在稍慢的时间尺度上操作，过滤来自稀疏反馈的噪声，而LLM则负责实时通信。至关重要的是，系统并不寻求确定的答案。相反，它维持着关于用户偏好的竞争假设，并随着证据积累概率性地更新这些假设。这反映了人类如何应对不确定性，但具备自动化系统所需的可扩展性。

3.1 与LLM行为者的集成

代理学习者通过编译上下文信息生成上下文元数据。这些元数据封装了学习者对用户偏好和当前上下文的理解，充当了适应性推理与程序性执行之间的桥梁。一旦构建了上下文向量，就将其作为前缀传递给LLM行为者。LLM随后基于这个增强的输入生成响应。这种集成确保了LLM的程序性优势——流畅性、连贯性和风格适应性——由学习者的语义和关联洞察引导。

可以说代理学习者有一个冷启动问题，但这可以说是代理学习者在恶劣环境中操作的一个设计特点而非缺陷。滑动窗口Thompson采样等程序本质上通过其探索-开发平衡解决了这个问题。早期的互动将优先进行广泛的探索（例如，平等测试所有价值主张）。在恶劣环境中，用户的偏好会发生变化，之前获得奖励的语义类别的缺乏奖励将改变并平滑这些类别的基础分布，导致代理学习者自动重新分配探索带宽。

代理学习者拥抱不确定性：他们的任务不是找到一个“正确”的答案（在恶劣学习环境中很少存在），而是做出适应性知情的投注。换句话说，它们是为了因果决策而非因果估计而设计的 [4]。

4 认知专业化的模块化架构

人脑对认知有不同的定义，每个定义都有不同的机制，而LLMs只有一个认知定义，且仅由一种机制支持。这引发了严重怀疑，即LLMs是否能作为更广泛的“人工通用智能”计划的基础，甚至是建立能够在混乱和复杂的现实世界情境中行动的系统的更为适度的目标。

当前将LLMs扩展到多模态系统的努力往往混淆了机械多样性——例如处理图像、文本或音频——与认知专业化。虽然多模态系统增强了代理可以处理的输入类型范围，但它们并未解决对专门认知子系统的基本需求。真正的自主性需要一个模块化架构，其中不同组件针对特定认知任务进行了优化。例如：

语义模块通过将学习的动作和概念组织成抽象、可推广的表示来管理结构化知识——类似于人类语义记忆如何编码脱离具体经验的事实和规则 [25]；
- 关联模块通过形成和检索共现状态和动作之间的关系来链接体验——这一过程类似于人类认知中的关联绑定，其中经验的元素通过重复或有意义的共同激活连接在一起 [19]。
- 程序模块使用已学习的语义关联作为上下文生成连贯、可读的人类响应。
通过解耦这些功能，系统避免了单一模型被迫处理不适合的任务所带来的缺点。虽然这种模块化引入了界面挑战——如协调组件和管理错误传播——但这些都是经过深思熟虑的权衡。模块化设计提供了更清晰的控制边界，提高了代理行为的可解释性，并允许单独模块重新训练或升级而不必彻底改造整个系统。

5 相关工作

认知架构如 $A CT - R$ 和SPAUN对模块化采取了更明确的立场。 $A CT - R$ 将人类认知建模为与心理理论相关的符号模块的相互作用 [2]，而SPAUN通过将尖峰神经网络与符号架构集成来模拟广泛的认知任务 [3]。这些系统优先考虑生物合理性及一般认知能力，但通常依赖于手工工程结构，这限制了它们在新环境中的可扩展性和适应性。

更近期的方法强调跨多种模态的通用控制。LeCun的联合嵌入预测架构提出了一种框架，其中世界建模和目标调节通过预测嵌入学习 [11]，而Gato将智能框定为一个统一的序列建模问题，训练跨越多样任务和输入模态 [18]。两者都通过架构同质性和大规模预训练追求泛化，但在推理期间提供的动态模块化组成或可解释性支持有限。

我们的方法在多个方面偏离了这些研究路线。虽然我们接受子符号表示和端到端学习，但我们拒绝建筑单体而倾向于动态模块化。我们不是追求普遍性或认知仿真，而是构建可以从组合组件中灵活交换上下文并在恶劣的真实世界环境中进行专业化的系统。模块化不仅仅是结构上的便利——它是持续适应、情境透明和接地控制的机制。这使我们的系统能够在甚至违背固定任务边界或静态状态表示的情况下平衡泛化与解释和复用。

代理架构的设计必须优先考虑其操作的学习环境。在良好环境中（以稳定规则、重复模式和清晰反馈为特征），LLMs可以作为独立代理有效运作。然而，在恶劣环境中（规则动态变化、反馈模糊且新颖性是常态），混合系统是必不可少的。这种分工确保系统能够在适应恶劣环境的不可预测性的同时保持LLMs的程序性优势。

6 结论

现实世界的决策需要超越程序性记忆的认知多样性。为了推进自主代理，我们提出了三个关键原则：
(1) 解耦认知模块。LLMs应作为模块化架构中的组件，而不是中央控制器。这种分离允许每个模块在其各自的认知功能上专业化，无论是程序性、关联性还是语义性。
(2) 严格的环境分类。应用和数据系统的设计必须考虑到学习环境。良好环境可能只需要程序性能力，而恶劣环境则需要将关联和语义推理集成的混合架构。
(3) 投资于关联和语义系统。优先研究神经-符号架构、稀疏记忆模型及其他能够实现显式推理和适应性学习的框架。

通过接纳这些原则，我们可以开发出在不确定性中补充人类创造力的代理，而不仅仅是复制结构域中的程序性专长。从整体到模块化架构的转变代表了AI设计的必要演变，它承认了现实世界决策的复杂性和当前方法的局限性。

参考文献

[1] M. S. Aissi, C. Romac, T. Carta, S. Lamprier, P. Oudeyer, O. Sigaud, L. Soulier, 和 N. Thome. 2024. 强化学习用于对齐大型语言模型代理与交互环境：量化和减轻提示过拟合。arXiv:2410.19920 [cs.LG]
[2] J. R. Anderson 和 C. Lebiere. 1996. ACT-R: 复杂认知的简单理论。American Psychologist 51, 4 (1996), 355.
[3] C. Eliasmith, T. C. Stewart, X. Choo, T. Bekolay, T. DeWolf, Y. Tang, 和 D. Rasmussen. 2012. 大规模功能性大脑模型。Science 338, 6111 (2012), 1202-1205.
[4] C. Fernández-Loria 和 F. Provost. 2022. 因果决策与因果效应估计并非相同…以及为什么这很重要。INFORMS Journal on Data Science 1, 1 (2022), 4-16. doi:10.1287/jds.2021.0006
[5] K. Foerde 和 D. Shohamy. 2011. 基底神经节在学习和记忆中的作用：帕金森病的启示。Neurobiology of Learning and Memory 96, 4 (2011), 624-636. doi:10.1016/j.nlm.2011.08.006
[6] Y. Gao, Y. Xiong, X. Gao, K. Jia, J. Pan, Y. Bi, Y. Dai, J. Sun, M. Wang, 和 H. Wang. 2024. 大型语言模型的检索增强生成：综述。arXiv:2312.10997 [cs.CL]
[7] I. J. Goodfellow, M. Mirza, D. Xiao, A. Courville, 和 Y. Bengio. 2015. 梯度下降神经网络中灾难性遗忘的实证研究。arXiv:1512.6211 [stat.ML]
[8] R. M. Hogarth, T. Lejarraga, 和 E. Soyer. 2015. 良好和恶劣学习环境的两种设置。Current Directions in Psychological Science 24, 5 (2015), 379-385. doi:10.1177/0963721415591878
[9] P. Hosseini, I. Castro, I. Ghinassi, 和 M. Purver. 2025. 针对LLMs令人困惑的失败的有效解决方案：长上下文窗口并不意味着LLMs可以完美分析长序列。In Proc.of the 31st International Conference on Computational Linguistics. Association for Computational Linguistics, 1880-1891. https://aclanthology.org/2025.collng-main.128/
[10] J. Kirkpatrick, R. Pascanu, N. Rabinowitz, J. Veness, G. Desjardins, A. A. Rusu, K. Milan, J. Quan, T. Ramalho, A. Grabska-Barwinska, D. Hassabis, C. Clopath, D. Kumaran, 和 R. Hadsell. 2017. 克服神经网络中的灾难性遗忘。Proc.of the National Academy of Sciences 114, 13 (2017), 3521-3526. doi:10.1073/pnas. 1611835114
[11] Y. LeCun. 2022. 通往自主机器智能之路。arXiv preprint arXiv:2205.10347 (2022)
[12] P. Lewis, E. Perez, A. Piktus, F. Petroni, V. Karpakhin, N. Goyal, H. Küttler, M. Lewis, W. Yih, T. Roektaschel, S. Riedel, 和 D. Kiela. 2020. 检索增强生成用于知识密集型NLP任务。In Advances in Neural Information Processing Systems, Vol. 33. Curran Associates, Inc., 9459-9474. https://proceedings.neurips.cc/paper_files/paper/2020/file/ 6b493230205f780e1bc26945df7481e5-Paper.pdf
[13] H. L. Li 和 M. CW van Rossum. 2020. 节能的突触可塑性。eLife 9 (feb 2020), e50804. doi:10.7554/eLife.50804
[14] Y. Liu, H. He, T. Han, X. Zhang, M. Liu, J. Tian, Y. Zhang, J. Wang, X. Gao, T. Zhong, Y. Pan, S. Xu, Z. Wu, Z. Liu, X. Zhang, S. Zhang, X. Hu, T. Zhang, N. Qiang, T. Liu, 和 B. Ge. 2025. 理解LLMs：从训练到推理的全面概述。Neurocomputing 620 (2025), 129190. doi:10.1016/j. neucom.2024.129190
[15] A. P. Maurer 和 L. Nadel. 2021. 上下文的连续性：海马体的作用。Trends in Cognitive Sciences 25, 3 (Mar 2021), 187-199. doi:10.1016/ j.tics.2020.12.007
[16] H. F. Ólafsdóttir, D. Bush, 和 C. Barry. 2018. 海马体回放在记忆和规划中的作用。Current Biology 28, 1 (Jan 8, 2018), R57-R50. doi:10. 1016/j.cub.2017.10.075
[17] B. Peng, S. Narayanan, 和 C. Papadimitriou. 2024. 关于Transformer架构的局限性。In 第一届语言建模会议。https: /openreview.net/forum?id=KidynPuLNW
[18] Scott R., K. Zolna, E. Parinotto, S. G. Colmenarejo, A. Novikov, G. Barth-maron, M. Ginsmez, Y. Sulsky, J. Kay, J. T. Spitngenberg, T. Eccles, J. Bruce, A. Razavi, A. Edwards, N. Heess, Y. Chen, R. Hadsell, O. Vinyals, M. Bordbar, 和 N. de Freitas. 2022. 通用代理。Transactions on Machine Learning Research (2022). https://openreview.net/forum?id=1ikK0kHjvj
[19] C. Ranganath 和 M. Ritchey. 2012. 两个用于记忆指导行为的皮质系统。Nature Reviews Neuroscience 13, 10 (2012), 713-726. doi:10.1038/ nrn3338
[20] L. Ruis, M. Mozes, J. Bae, S. R. Kamalakara, D. Talupuru, A. Locatelli, R. Kirk, T. Roektaschel, E. Gerfenstette, 和 M. Bartolo. 2025. 预训练中的程序性知识推动大型语言模型的推理。arXiv:2411.12580 [cs.CL] 将出现在ICLR '25中。
[21] A. L. Smith, F. Greaves, 和 T. Panch. 2023. 幻觉还是虚构？大型语言模型中的神经解剖学隐喻。PLOS Digital Health 2, 11 (Nov 2023), 1-3. doi:10.1371/journal.pdg.0000388
[22] R. S. Sutton, A. G. Barto, 等. 1998. 强化学习：简介。Vol. 1. MIT press Cambridge.
[23] W. R. Thompson. 1935. 在两样本证据下未知概率超过另一个的概率的可能性。Biometrika 25, 3(4 (1933), 285294. http://www.jstor.org/stable/2332286
[24] F. Trovo, S. Paladino, M. Restelli, 和 N. Gatti. 2020. 滑动窗口汤普森采样用于非平稳设置。Journal of Artificial Intelligence Research 68 (2020), 311-364.
[25] E. Tulving. 1972. 情景记忆和语义记忆。Academic Press.
[26] A. Vaswani, N. Shazer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, 和 I. Polosiddim. 2017. 注意力就是你所需要的。In Advances in Neural Information Processing Systems (NeurIPS '17, Vol. 30). Curran Associates, Inc.
[27] X. Wang, M. Salmani, P. Omidi, X. Ren, M. Rezagholizadeh, 和 A. Esbaghì. 2024. 超越极限：扩展大型语言模型上下文长度的技术综述。arXiv:2402.02244 [cs.CL]
[28] J. Wei, X. Wang, D. Schuurmans, M. Bosma, B. Ichter, F. Xia, E. Chi, Q. V. Le, 和 D. Zhou. 2022. 链式思维提示激发大型语言模型中的推理。In Advances in Neural Information Processing Systems, Vol. 35. Curran Associates, Inc., 24824-24837. https://proceedings.neurips.cc/paper_files/paper/ 2022/file/9d3609613524es58f15afb7f5f148ca4-Paper-Conference.pdf
[29] J. T. Wisted, L. R. Squire, Y. Jang, M. H. Papesh, S. D. Goldinger, J. R. Kuhn, K. A. Smith, D. M. Treiman, 和 P. N. Steinmetz. 2014. 人类海马体神经元中情景记忆的稀疏和分布式编码。Proc.of the National Academy of Sciences 111, 26 (2014), 9621-9626. doi:10.1073/pnas. 1408365111
[30] W. Zhong, L. Guo, Q. Gao, H. Ye, 和 Y. Wang. 2023. MemoryBank：通过长期记忆增强大型语言模型。arXiv:2305.10250 [cs.CL]