大型语言模型中的知识学习利用机制

本文链接：https://blog.csdn.net/m0_59164520/article/details/144774793

摘要大语言模型（LLMs）中的知识机制理解对于向可信任的通用人工智能（AGI）迈进至关重要。本文从一个新颖的分类法角度审视了知识机制分析，其中包括知识的利用和演化。知识利用探讨了记忆、理解、应用和创造的机制。知识演化关注个体和集体LLMs中知识的动态进展。此外，我们讨论了LLMs学到的知识，参数化知识脆弱性的原因，以及未来可能难以解决的潜在黑暗知识（假设）。我们希望这项工作能帮助理解LLMs中的知识，并为未来研究提供见解。

知识是智慧的基石，也是文明的延续.为我们提供了基本原则和指导，帮助我们应对复杂问题和新兴挑战。在漫长的进化历史中，我们致力于通过利用已获得的知识并探索未知知识的前沿来培养更先进的智慧。

三个层面分析知识利用机制：记忆、理解和应用以及创造.

语言模型已经学会了基本的世界知识。然而，所学知识是脆弱的，导致出现幻觉和知识冲突等挑战。我们推测这种脆弱可能主要是因为学习数据不当所致。此外，未学习到的黑暗知识将会长时间存在。

知识是对事实的认识，一种熟悉、意识、理解或熟识的形式。

知识分析方法旨在解释LLMs内部的工作原理，并揭示特定组件与输出之间的精确因果关系。

假设1：模块化区域：知识被编码在模块化区域中。

**假设2:**知识由连接表示。

假设3：重复利用 LLMs在知识理解和应用过程中重复使用某些组件。知识理解和应用侧重于展示对已记忆知识的理解，然后在新情境中解决问题，例如，在域外任务上的泛化

假设4：外推。LLMs可能通过外推创造知识。知识的表达是多样的；一些知识本质上是连续的

假设5：动态智能 LLMs的动态知识演化中存在着冲突与整合。

处于一个充满活力的世界中，个体通过记忆、遗忘、错误更正和加深对周围世界的理解的迭代过程而成熟。

在预训练阶段，LLMs作为空白状态，有助于更容易地获取新知识。经过预训练，语言模型(LM)在后训练阶段预计会刷新其内部知识，以跟上不断发展的世界步伐。尽管LM似乎通过持续学习吸收新知识，通过指导调整遵循用户指令，并通过对齐调整与人类价值观保持一致。

除了个体学习之外，社会互动在新知识的习得中起着至关重要的作用，是人类社会发展的关键驱动因素。

通过辩论和合作，群体整合更多知识，并可以超越个体单元的认知。

进化：个人和团体主要通过两种策略实现动态智能：更新内部参数化知识和利用外部知识。

知识利用和演化的机制分析可能为构建更高效、更可靠的模型提供途径。

为了在LLMs中存储和利用知识，知识（记忆）电路提供了将LLMs的知识计算分解为更小、重复部分的理论。

受LLMs中的知识机制分析启发，一个有前途的可靠策略可能是在预训练阶段设计架构和训练过程，以奖励模块化。

LLMs可以被理解为参数化知识记忆，其中模型的参数（通常是神经网络的权重）编码了世界知识的表示。这种参数化的知识存储方法意味着知识被隐式地嵌入在模型的架构中，并且可以通过神经网络的计算过程进行检索和操作。

自我进化**。**如前所述，当前的语言模型主要是基于调整以获取知识，这需要大量的训练和高质量的数据。这些学习是被动的，而作为一个人，进化通常也经历沟通和互动。作为一个智能体，模型应该能够通过互动学习，并自发地自主学习。

**LLMs可以被理解为参数化知识记忆，**其中模型的参数（通常是神经网络的权重）编码了世界知识的表示。这种参数化的知识存储方法意味着知识被隐式地嵌入在模型的架构中，并且可以通过神经网络的计算过程进行检索和操作。

领域专用模型中的数据稀疏性和多样性构成另一个挑战。稀疏性通常是由于保密性、隐私和在专业领域获取成本造成的。至于多样性，知识的呈现在不同领域之间存在差异。例如，在生物医学领域，知识包括复杂的生物概念，如蛋白质和分子的结构和功能。这要求模型整合超越自然语言的理解，通常涉及图形表示，比如化学结构，无法直接用文本表达。在金融和法律等领域(，模型必须基于领域特定知识进行复杂推理和决策过程。

1 介绍

知识是智慧的基石，也是文明的延续，为我们提供了基本原则和指导，帮助我们应对复杂问题和新兴挑战（Davis等，1993年；Choi，2022年）。在漫长的进化历史中，我们致力于通过利用已获得的知识并探索未知知识的前沿来培养更先进的智慧（McGraw和Harbison-Briggs，1990年；Han等，2021年）。

正如我们所知，大型语言模型（LLMs）以其包含广泛参数化知识而闻名（Roberts等，2020年；Sung等，2021年；Cao等，2021a；Zhong等，2021年；Kandpal等，2023年；Heinzerling和Inui，2020年；Petroni等，2019年；Qiao等，2023年；Kritharoula等，2023年；He等，2024a），在应用中取得了前所未有的进展。然而，LLMs中的知识机制用于学习、记忆、演化、发展和进化仍然是一个神秘（菲利普斯）。

图1：神经模型内部知识机制的分析框架包括知识演化和利用。黑暗知识指的是人类或模型（机器）未知的知识。我们研究了LLMs在它们演化的特定阶段期间的知识利用机制（右侧）。

机制分析所确定的知识限制将激发后续演化（et al., 2021; Gould et al., 2023a). Extensive works aim to demystify various types of knowledge in LLMs through knowledge neurons (Dai et al., 2022; 通过知识神经元在LLMs中揭示各种类型知识的广泛研究（Dai等人，2022年；Gould等人，2023年a）。陈等人，2024年）和电路（Elhage等人，2021年；Yao等人，2024年；邹等人，2024年），然而这些努力分散在各种任务中，等待全面审查和分析。

**如图1所示，本文开创性地回顾了整个知识生命周期中的机制。**我们还提出了一种新颖的LLMs知识机制分类法，如图2所示，涵盖了特定时间的知识利用和LLMs所有时期的知识演化。具体而言，我们介绍了这一领域的基础知识（§2）并从新的视角审视了知识利用机制（§3），深入探讨了知识演化的基本原理（§4）。然后，我们从知识机制的角度探讨如何构建更高效、更可信赖的LLMs（§5）。之后，我们讨论了LLMs已经获取和尚未获取的知识方面的开放问题（§6）。最后，我们还提供了一些知识机制分析的未来方向（§7）和工具（§C）。我们的贡献如下：

据我们所知，我们是第一个审查LLMs中知识机制并提供整个生命周期的新分类的人。我们提出一个新的视角，从三个层面分析知识利用机制：记忆、理解和应用以及创造。

在个体和群体LLMs中讨论知识的演化，并分析这一过程中固有的冲突和整合。

我们观察到，语言模型已经学会了基本的世界知识。然而，所学知识是脆弱的，导致出现幻觉和知识冲突等挑战。我们推测这种脆弱可能主要是因为学习数据不当所致。此外，未学习到的黑暗知识将会长时间存在。

与现有调查的比较以往的可解释性调查通常旨在调查说明LLMs中不同组件角色的各种方法，从全局和局部的分类角度进行（Ferrando等，2024年; 赵等，2024年; Luo和Specia，2024年; Murdoch等，2019年; Rai等，2024年; Bereska和Gavves，2024年; Vilas等，2024年; 辛格等，2024年）。相比之下，本文侧重于LLMs中的知识。因此，我们的分类法，从LLMs中的目标知识出发，审查了知识是如何获取、存储、利用以及随后演变的。此外，先前的分类法大多探讨了推理阶段（特定时期）的可解释性，而忽略了在预训练阶段的知识获取和在后训练阶段的演变（Räuker等，2023年; Luo等，2024年; Apidianaki，2023年; 焦等，2023年; Räuker等，2023年; Rai等，2024年）。我们的分类法旨在探索个体和群体LLMs中从幼稚到复杂的所有时期的动态演变。与最相似的调查（曹等，2024年）介绍知识生命周期不同，我们的工作侧重于每个阶段的基本机制。

通常，这篇论文可以帮助我们探索和操作LLMs中的高级知识，通过知识进化历史来审查当前的限制，并从知识机制的角度激发出更高效和可信的体系结构和学习策略，为未来模型提供启示。请注意，本文中大多数假设都源自基于transformer的LLMs。我们还验证了这些假设在其他结构模型中的普适性，然后在§B中提出了普遍性智能。

2 预备准备

2.1 知识范围

知识是对事实的认识，一种熟悉、意识、理解或熟识的形式（Zagzebski, 2017; Hyman, 1999; Mahowald et al., 2023; Gray et al., 2024）。它通常涉及通过经验学习的信息的掌握，并可以被理解为认知成功或与现实的认识接触。我们将各种知识表示为集合K，其中每个元素 k ∈ K 是一条具体的知识，可以通过各种记录来表达，例如，一个文本记录“2024年美国总统是拜登”（表示为rk）。

2.2 在LLMs中的知识定义

给定一个被表示为F的LLM，我们定义F掌握知识k，如果F能够正确回答对应问题rk：

这是关于缺少基准信息的知识 k 的 LLM F 的输出。以一个例子来说明：rk∈t 是“2024年美国总统是__”，基准信息是 “拜登”。注意，rk∈t 可以通过上述文本语句来表示，通过问题-回答对（“2024年美国总统是谁？”）捕获，或通过音频、视频、图片和其他等效表达传达。rk∈t 的基准信息可以用各种格式表示，形式化为 T = {“拜登”,“乔·拜登”,···}。如果输出 t 是正确答案集合 T 中的元素，则我们假设 F 掌握知识 k。

2.3 语言模型的架构

一个LLM F由许多神经元组成，这些神经元在特定的架构下系统地工作。

图2：LLMs中的知识机制分类。

**基于Transformer的架构。**目前主流的大语言模型（LLMs）架构是Transformer（Vaswani等，2017）. 具体来说，一个基于Transformer的LLM F 从一个token嵌入开始，接着是L层Transformer块，最后是用于预测答案token的token去嵌入。每个Transformer块层l 包括注意力头（Attention）和多层感知器（MLP）。

第 l 层的隐藏状态。

其他架构。其他架构包括变体的竞争性变种，例如SSM (Gu和Dao, 2023)，TTT (Sun等, 2024)和RWKV (Peng等, 2023)，以及计算机视觉中的架构 (Li等, 2023c)和多模态领域在§B.1中有详细描述。

2.4 知识分析方法

知识分析方法M旨在解释LLMs内部的工作原理，并揭示特定组件与输出之间的精确因果关系 (Bereska和Gavves，2024)。此外，如果F的组件C通过分析方法M准确推断了t，就假定知识k是由C呈现的。

集合C中的元素可以是单个神经元、MLP、注意力头、变压器块层或知识电路（Yao等人，2024年）。这些方法分为两类：观察和干预（Bereska和Gavves，2024年）。

基于观测的方法。这些方法旨在观察 F 的内部信息，通过 E 将组件 C 的输出直接投影成人类可理解的形式。

E是一种评价指标，可以是探针。

(Räuker等人，2023年)，logit镜头（nostalgebraist，2020年）或稀疏表示（Gao等人，2024c）。探针是经过精心训练的分类器，其分类性能用于观察模型行为与C输出之间的关系（Belinkov，2022年；Elazar等人，2021年；McGrath等人，2021年；Gurnee等人，2023年）。Logit镜头通常通过令牌去嵌入（Geva等人，2022b；Belrose等人，2023年；Pal等人，2023年；Din等人，2024年；Langedijk等人，2023年）将C的输出转换成词汇标记。稀疏表示通过字典学习（He等人，2024b；Olshausen和Field，1997年；Yun等人，2021年；Karvonen等人，2024年）将C的输出映射到具有强稀疏性的高维空间中，其中稀疏自动编码器（Sharkey等人，2022年；Cunningham等人，2023年；Lee等人，2006年；Gao等人，2024a）是一个著名的例子。高维空间更容易表示独立（或单义（Bricken等人，2023年））和可解释的特征（Rai等人，2024b）。C的输出是这些特征的组合（Elhage等人，2022年；Bricken等人，2023年）。

基于干预的方法。这些方法允许在LLMs中直接对关键的C进行干预以识别其干预策略I。注意，C代表着各种神经元组合，与特定的模型行为相关。

也被称为因果中介分析（Vig等，2020年），因果追踪（Meng等，2022年），交换干预（Geiger等，2022年），激活修补（Wang等，2023年；Zhang和Nanda，2023年），路径修补（Goldowsky-Dill等，2023年）和因果擦洗技术（LawrenceC等，2022年）。具体而言，I包括以下三个步骤。1）清晰运行：根据输入rk\t，F生成正确答案t。2）损坏运行：通过向输入或神经元引入噪声，在干净运行中破坏F的生成过程（Meng等，2022年；Goldowsky-

Dill等人，2023年；Stolfo等人，2023年；Yao等人，2024年；Conmy等人，2023年；Mossing等人，2024年；Lepori等人，2023年；Huang等人，2023年a）。3）恢复运行：通过从C中恢复未加噪音的信息来恢复正确答案t（Meng等人，2022年；Vig等人，2020年；Wang等人，2023年c；Zhang等人，2017年；Nanda，2023年）。对于基于干预方法，E通常指用于预测答案标记的标记未嵌入标记。在评估指标E下，C和LLMs F的特定行为之间存在因果关系。

图3：知识利用的机制分析跨越三个层次：记忆、理解和应用，以及创造。

3 LLM中的知识利用

受布鲁姆认知层次分类启发(Wilson, 2016; Bloom et al., 1956; Keene et al., 2010; Fadul, 2009)，我们将LLMs中的知识表示和利用分类为三个层次（如图3所示）：记忆、理解和应用，创造。请注意，这些机械分析是通过§2.4节中的方法实施的。我们进一步评估不同方法在§3.4节中的适用性、优势和局限性。

3.1 记忆化

知识记忆（Schwarzschild等，2024年；Prashanth等，2024年）旨在记住和回顾训练语料库中的知识，例如特定术语（实体），语法，事实，常识，概念等（Allen-Zhu和Li，2023a；Yu等，2023a；Mahowald等，2023年；Zhu和Li，2023年；Allen-Zhu和Li，2023b，2024年；Cao等）。

2024a).通过审查现有研究，我们从模块区域和连接假设中得出知识记忆的假设。

这种模块化区域假设简化了基于Transformer的模型中的知识表示，将其分解为孤立的模块化区域，例如，MLPs

假设1：模块化区域：知识被编码在模块化区域中。

MLP****通过MLPs编码知识。 Geva等人（2021）认为MLPs作为键-值记忆操作，每个个体键向量对应于特定的语义模式或语法。根据上述发现，Geva等人（2022b，a）逆向工程MLPs层的操作，并发现MLPs可以在词汇空间中促进语义（例如，包括kg，百分比，散布，总计，码，磅和小时的测量语义）和句法（例如，副词句法，包括主要地，迅速地，有效地，先前地和正常地）概念。Miller和Neo（2024）发现单个MLP神经元（在GPT-2 Large中）能够生成“an”或“a”。随后，发现了事实（Dai等人，2022; Meng等人，2022）和常识知识（Gupta等人，2023）。高级语言特定神经元（Tang等人，2024），语言区域（Zhao等人，2023a），熵神经元（Stolfo等人，2024），抽象概念（Wang等人，2024e）和不安全（Wang等人，2024b; Wu等人，2023a）知识，也观察到MLPs中。除了MLP，知识还通过关注头传达（Geva等人，2023; Gould等人，2023b）。 Hoover等人（2020）解释了每个关注头学到的知识。具体来说，关注头存储明显的语言特征，位置信息等。此外，事实知识（Yu等人，2023c; Li等人，2023a）和偏见（Hoover等人，2020）主要通过关注头传达。 Jiang等人（2024b）进一步观察到LLMs利用自关注通过上下文中的特定标记收集信息，这些标记作为线索，并使用值矩阵进行联想记忆。后来，Zhu等人（2024）还发现注意头可以模拟心理状态并激活“心灵理论”（ToM）能力。

然而，假设1忽略了不同区域之间的联系。受到神经科学的进展的启发（de Schotten等，2022年），假设2断言不同组件之间的连接整合知识，而不是假设1中的孤立区域。

**假设2:**知识由连接表示。

Geva等人（2023年）概述了通过以下三个步骤对事实知识（例如，“爱尔兰的首都是都柏林”）进行编码：（1）在MLP中对主体（爱尔兰）信息进行丰富化处理，（2）关系（首都）传播到最后一个标记，（3）对象（都柏林）由后续层中的注意力头提取。这一观点得到了Li等人（2024d年）的支持。同样，Lv等人（2024年）得出结论，任务特定的注意力头可能将主题实体移动到残差流的最终位置，而MLP执行关系功能。此外，最近突出的知识电路框架（Nainani，2024年；Yao等人，2024年；He等人，2024b年；Elhage等人，2021年；Marks等人，2024年）主张利用所有组件中的关键计算子图来探索LLM参数内部知识。间接对象识别和颜色对象任务的能力被发现嵌入了专门的知识电路中（Conmy等人，2023年；Wang等人，2023c年；Merullo等人，2023a年；Yu等人，2024c年）。 Lan等人（2024年）还确认了编码阿拉伯数字、数字词和月份的预测能力的数字相关电路。更重要的是，实验证据表明各种类型的知识，包括语言、常识、事实和偏见信息，都封装在特定的知识电路中（Yao等人，2024年）。有趣的是，特定电路编码的知识可以与甚至超过整个LLM的知识竞争。这可能是因为知识电路记住了相关知识，而来自其他组件的噪音可能会阻碍模型在这些任务上的表现。

3.2 理解和应用

知识理解和应用侧重于展示对已记忆知识的理解，然后在新情境中解决问题，例如，在域外任务上的泛化（Wang等，2024a），推理（Hou等，2023）和规划（McGrath等，2021）。Merrill等人（2023）将从记忆到理解和应用的过渡称为grokking，并建议grokking来源于两个主要不同的子网络之间的竞争。直觉上，只有在§3.1中正确记忆的知识（Prashanth等，2024）才能进一步应用于解决复杂任务。因此，我们从两个知识记忆的角度提出以下复用假设。

假设3：重复利用 LLMs在知识理解和应用过程中重复使用某些组件。

**根据模块化区域的观点，知识利用重新使用一些区域。**这些区域可能包括一些神经元、注意力头、MLP、一个变压器层，或者部分知识回路。通常，基本知识（位置信息、N-gram模式、句法特征）倾向于存储在较早的层中，而复杂知识（心理状态、情感和抽象概念，例如素数、驼鹿科和安全）位于后来的层中。因此，与基本知识相关的较早层的神经元倾向于被重复使用。各种数学推理任务还利用初始层中的注意机制，将输入信息映射到最终的标记位置，随后使用后期层中的一组MLP生成答案。此外，还有一些特定的功能区域被重复使用。特别是，检索头用于链式推理（CoT）和长上下文任务。这些检索头存在于4个模型系列、6个模型规模和3种微调中。随后，在Llama和GPT中识别的归纳头被声称用于上下文学习任务。注意头可以在与首都城市有关的任务中将国家名称映射到它们的首都。语言特定的神经元负责多种语言相关任务，例如英语、法语、普通话等。

Zhao等人（2023a）进一步揭示了语言区域（在Llama中）对应于语言能力，这是执行各种任务的基石。后来，在LLMs中还发现了与数学推理过程相关的功能区域。例如，从头开始训练的GPT-2的最后一层已被观察到在各种数学问题上展示数学推理能力（Ye等人，2024）。从连接角度看，知识利用分享部分知识回路。例如，类似任务分享具有类似作用的子图（计算回路）（Lan等人，2024）。此外，知识回路（在GPT2中）被重用来解决看似不同的任务，例如间接宾语识别和有色物体任务（Merullo等人，2023a）。Wang等人（2024a）进一步观察到，双跳组合推理任务重用了第一跳的知识回路。Yao等人（2024）也认为这种重用现象存在于事实回忆和多跳推理中。具体来说，在类似事实知识相关的任务中，例如与“城市_国家”、“姓名_出生地”和“国家_语言”相关的任务中重复使用子回路。此外，Dutta等人（2024）揭示了LLMs如何执行CoT推理，即Llama通过享有显著交集的多个并行回路促进CoT任务。

3.3 创作

知识创造（Runco and Jaeger，2012；Sternberg，2006年）强调了形成新颖和有价值的事物的能力和过程，而不是在第3.1节和第3.2节中讨论的已有事物（即LLMs have seen）。创作包括两个层面：1）LLMs根据LLMs理解的当前世界原则创造新术语，例如新蛋白质（Shin等，2021年），分子（Bagal等，2022年；Fang等，2023年；Edwards等，2022年），代码（DeLorenzo等，2024年），视频（Kondratyuk等，2023年），模型（Zheng等，2024年），人和公司的名称，书面故事（Pépin等，2024年；古麦斯-罗德里格斯和威廉姆斯，2023年；巴兹等，2024年），合成数据（Stenger等，2024年；穆穆尼等，2024年；阿布法达和曼苏尔，2021年）等。这些新颖物品根据现有规则运作，例如能量守恒定律，推理逻辑（Wang等，2024年a），或概率论原则。2）LLMs可能会生成新规则，例如数学定理，由此产生的术语将按照新规则运作。我们认为LLMs的知识创造可能源自外推假设。

假设4：外推。LLMs可能通过外推创造知识。

**知识的表达是多样的；一些知识本质上是连续的。**因此，使用离散的数据点来表示某些知识是困难的，甚至是不可能的（Spivey和Michael，2007；Penrose；Markman，2013）。

LLMs利用对世界运作原则的洞察，从已知的离散点中推断出额外知识，弥补知识的空白，扩展我们对世界的理解（Heilman等人，2003年；Douglas等人，2024年；Park等人，2023b年；Kondratyuk等人，2023年）。从人类创造力研究中获取灵感（Haase和Hanel，2023年），知识推断的物理实现依赖于神经元的可塑性（Mukherjee和Chang，2024年）。具体而言，可塑性指LLMs根据输入改变神经元之间的激活和连接（Coronel-Oliveros等人，2024年）。

然而，从统计的角度来看，神经元之间的复杂连接和激活虽然不是无限的，但抵抗详尽的列举。在价值方面，并非所有的创作都有价值。以极低概率获得有价值的东西是不现实的，因为理论上甚至一只猴子也可以印刷出莎士比亚的作品。LLMs如何确保生成有价值的作品的概率？创作的新颖性和价值背后的机制是什么？一种普遍的推测认为，新颖性是通过随机漫步生成的（Sæbø和Brovold，2024年）。然而，直观地说，由于架构上的限制，当前的LLMs本身似乎无法评估创作的价值（Chakrabarty等，2024年）。因为，一旦生成下一个标记，就没有内在机制来接受或拒绝创作。这阻碍了对提出的新颖性的有用性和价值的评估，就像人类通过弯曲、融合或打破偏见来评估一样（Sæbø和Brovold，2024年）。一些作品假设每个标记确实有价值并符合长期期望。然而，LLMs的着名幻觉问题（Xu等，2024年）否定了这一假设。此外，变压器架构尽管存在许多用于解决这个问题的变体（Huang等，2023年；Liu等，2024年），但仍然难以处理长上下文（Li等，2024年）。更重要的是，变压器的MLPs也可能与创造力相悖，即，增加的注意力会限制用于标记预测的条件分布（Sæbø和Brovold，2024年）。

3.4 不同机制分析方法的比较

以上四个假设是通过实现的。

基于观察和基于干预的方法。这两种方法通常结合起来追踪LLMs中的知识（Mossing等，2024年；Ghandeharioun等，2024年）。大多数知识分析方法与架构无关，可以适应各种模型。

每种方法都适用于不同的场景。具体来说，Modular Region Hypothesis 可以使用基于观察或基于干预的方法进行分析。相比之下，Connection Hypothesis（检验区域间连通性）通常需要基于干预的方法。然而，知识机制分析的结果严重依赖于不同的方法，并对评估指标和实施细节敏感 (Schwettmann等，2023b)。因此，Huang等 (2024b)提出了一个数据集，RAVEL，用于量化各种现有可解释性方法之间的比较。他们建议，带有监督的方法比无监督特征化器更好。随后，Zhang和Nanda (2023)进一步系统地检查了基于干预的方法中方法论细节的影响。对于损坏的运行，他们推荐使用对称标记替换（例如，“埃菲尔铁塔”→“竞技场”）(Sharma等，2024年; Vig等，2020年)而不是高斯噪声（Meng等，2022年），后者会扰乱模型的内部机制。对于度量E，可以使用logit镜头和探针来追踪事实知识（Meng等，2022年），其中目标输出通常为几个标记。在这种情况下，张和南达（2023年）提倡在评估度量E时使用logit镜头，因为它对定位结果具有精细的控制。此外，探针能够探索抽象的知识和能力，如心灵理论或心理状态（Zhu等，2024年; Ye等，2024年; Jin，2024年），其中目标输出需要多个标记来表达。Jin（2024年）指出，更深层次的探针通常更准确。

4 知识演化在LLMs中

LLMs中的知识应随着外部环境的变化而不断发展。我们引入了动态智能假说，用于解释个体和群体中知识的演变。

假设5：动态智能 LLMs的动态知识演化中存在着冲突与整合。

4.1 个体进化

**处于一个充满活力的世界中，个体通过记忆、遗忘、错误更正和加深对周围世界的理解的迭代过程而成熟。**类似地，LLM（Language Model）通过冲突和整合的过程将知识动态地封装到参数中。

在预训练阶段，LLMs作为空白状态，有助于更容易地获取新知识（Allen-Zhu和Li，2024年）。因此，许多实验证明，LLMs在这个阶段积累了大量的知识（Cao等，2024年b; Zhou等，2023年a; Kaddour等，2023年; Naveed等，2023年; Singhal等，2022年）。Akyürek等人（2022年）进一步探讨了识别哪些训练样本对赋予LLMs特定知识至关重要。然而，在预训练阶段的矛盾可能导致内部参数化知识之间的冲突。一方面，训练语料库中虚假和矛盾的信息通过语义扩散在LLMs中传播和污染相关记忆，引入了更广泛的有害影响，超越直接影响（Bian等，2023年）。另一方面，LLMs倾向于优先记忆更频繁和具有挑战性的事实，这可能导致后续事实覆盖先前的记忆，严重阻碍低频事实的记忆（Lu等，2024年）。换句话说，LLMs在平衡和整合低频和高频知识方面存在困难。

经过预训练，语言模型(LM)在后训练阶段预计会刷新其内部知识，以跟上不断发展的世界步伐。尽管LM似乎通过持续学习吸收新知识，通过指导调整遵循用户指令（张等，2023年），并通过对齐调整与人类价值观保持一致（齐格勒等，2019年），但季等人（2024年）指出LM在后训练阶段固有地抵制对齐。换句话说，LM倾向于通过预训练学习事实知识，而微调使他们更有效地利用这些知识（格克曼等，2024年；周等，2023年；奥瓦迪亚等，2024年）。任等人（2024）还提出，指导调整是一种以现有内部知识自我对齐的形式，而非学习新信息的过程。我们推测关于这些过程是否真正引入新知识的争论源于信息冲突。例如，LM内部过时信息与新外部知识之间的冲突加剧了其学习新信息的难度。为减轻信息冲突，倪等人（2023年）提出先遗忘旧知识，然后学习新知识。另一个技术，检索增强生成（RAG）（黄和黄，2024年），虽然避免了内部参数之间的冲突，但仍需处理检索到的外部信息与LM内部知识之间的冲突（徐等，2024年）。RAG还尝试使用多次检索和海马体索引（涡缇雷斯等，2024年）跨段落或文档高效有效地整合新知识。此外，包括知识和表示编辑在内的编辑技术展现了对知识补充、修改和擦除的前景。具体而言，知识编辑旨在有选择地修改负责特定知识保留的模型参数，而表示编辑则调整模型对知识的概念化，以修订存储在LM中的知识。请注意，知识编辑的另一种策略是添加外部参数或存储器以获取新知识，同时保留模型的参数。我们还在第A节中对上述方法进行了比较，以便更好地理解。

4.2 群体进化

**除了个体学习之外，社会互动在新知识的习得中起着至关重要的作用，是人类社会发展的关键驱动因素（**Baucal等，2014年；Levine等，1993年）。LLMs，也被称为代理者，在团体进化过程中合作完成复杂任务，每个代理者都拥有独特的知识，有时可能彼此存在矛盾。因此，与个体进化相反，团体进化会遇到加剧的冲突，例如代理者之间的专业知识冲突、利益竞争、文化差异、道德困境等。为了达成共识并解决冲突，代理者必须首先通过模型中的内部表征（Zhu等，2024年；Zou等，2023年）澄清自己和其他人的目标（信念）。然后，代理者通过各种交流方法（Chan等，2024年；Smit等，2024年；Li等，2024年；Soltoggio等，2024年）进行讨论、辩论和反思共享知识，例如即时指令、任务和代理者描述、参数信号（激活和梯度）以及模型的表征。然而，在团体进化过程中，代理者的一致性往往使他们倾向于相信大多数错误答案而不是坚持自己的答案，这会阻碍冲突解决（Zhang等，2023年；Ma等，2024年）。值得注意的是，当面对道德冲突时，团体也面临自动化道德决策方面的困难。具体而言，团体中的代理者缺乏道德“正确性”的基本真相，并且由于道德规范随时间的变化而面临困境（Hagendorff和Danks，2023年）。总的来说，在团体进化过程中，什么时候、什么内容和如何分享知识以最大程度地提高学习效率和长期预期仍然是开放性问题。

通过辩论和合作，群体整合更多知识，并可以超越个体单元的认知（Liang等，2023a；钱等，2023；乔等，2024；Talebirad和Nadiri，2023；张等，2023a）。这源于这样一个假设，即每个个体单元都可以为集体知识做出贡献并从中受益（Soltoggio等，2024；徐等，2024c）。此外，“当一个度量成为目标时，它就不再是一个好的度量”，这意味着在单个个体上优化一个目标将不可避免地在一定程度上损害其他优化目标。因此，与个体优化相比，一个个体学习所有知识是不现实的。有趣的是，LLM群体也遵循合作扩展规律（钱等，2024a），其中标准化的解决方案质量随着缩放代理遵循Logistic增长模式。此外，一些研究（Huh等，2024；Bereska和Gavves，2024）提出，知识往往会收敛到整个人工神经模型群的相同表示空间，即使数据、模态和目标不同。

4.3 不同进化策略的比较

个人和团体主要通过两种策略实现动态智能：**更新内部参数化知识（Zhou等，2023a；Qiao等，2024）和利用外部知识（**Huang和Huang，2024；Xie等，2024）。这两种策略通常在应用中一起使用（Yang等，2024b）。

更新内部参数化知识需要高质量数据进行参数调整（Vashishtha等，2024年；Cao等，2024a年）。在微调模型以获取新知识时，数据被证明至关重要。Ovadia等（2024年）也认为，通过无监督调整继续训练LLM通常在获得新知识时表现不佳。请注意，更新内部参数化知识需要解决内部参数之间的冲突。有效更新内部知识的关键在于在调整前后保持模型参数知识的一致性。相反，利用外部知识需要管理外部知识本身以及外部和内部知识之间的冲突（Xu等，2024b年；刘等，2024a年）。此外，参数化知识压缩广泛信息，促进领悟并增强泛化能力（Wang等，2024a年）。相反，利用外部知识避免了高昂的培训成本，但对于每个用户查询都需要大量的维护和检索成本。因此，这两种策略的结合是有希望的。一种结合尝试（杨等，2024b年）建议利用RAG获取低频知识，利用参数化策略获取高频知识。

5 知识机制的应用

知识利用和演化的机制分析可能为构建更高效、更可靠的模型提供途径。

5.1 高效的LLMs

研究人员正在努力通过各种优化策略来降低LLM训练和推断的成本，包括架构（Ainslie等，2023年；Fedus等，2022年）、数据质量（Kaddour，2023年）、并行化（Qi等，2024年）、泛化理论（Zhang等，2024年）、硬件（Dey等，2023年）、规模定律（Hoffmann等，2022年）、优化器（Liu等，2023年）等。底层的知识机制为LLMs提供了存储、利用和演化知识的新潜力。

为了在LLMs中存储和利用知识，知识（记忆）电路提供了将LLMs的知识计算分解为更小、重复部分的理论（Yang等人，2024b）。这些更小的部分指导确定应该将哪种类型的知识编码为参数。因此，Memory3（Yang等人，2024b）为基于Transformer的LLMs设计了一种显式记忆机制，减轻了参数大小的负担。具体而言，Memory3为不同使用频率设计了外部信息、显式记忆和隐式记忆，降低了写入和阅读成本。对于知识演变，知识机制分析启发了编辑和模型合并。有关编辑技术的详细信息可以在§4.2中找到。模型合并技术利用参数方向将多个特定任务的模型合并成一个单一的多任务模型，而无需额外进行训练，而不是从头开始训练。例如，Task Arithmetic（Ilharco等人，2023）识别了不同模型中任务能力的权重方向，然后通过对权重方向进行算术运算，集成了一个更强大的模型。TIES（Yadav等人，2023）解决了参数方向的冲突，并仅合并了与最终达成一致标志的参数。Akiba等人（2024）进一步提出了模型合并的进化优化，自动发现开源模型的有效组合，利用它们的集体智慧，而无需大量训练数据或计算资源。此外，Lottery Ticket Hypothesis（Frankle和Carbin，2019）为模型压缩提供了一个基石，概括了各种数据集、优化器和模型架构（Morcos等人，2019；Chen等人，2021）。然而，模型压缩通常会限制编辑和模型合并的成功（Kolbeinsson等人，2024）。这种现象对于实际实施提出了挑战，突显了更有效策略的需求。

5.2 值得信赖的LLMs

许多研究调查了安全风险的潜在原因（Reuel等，2024年；任等，2024b年；李等，2024a年；Bengio，2024年；Bengio等，2024年；Dalrymple等，2024年）。特别是，魏等人（2023年）深入研究了LLM的安全性，并揭示出越狱成功主要是由于恶意攻击和训练数据之间的分布差异。Geva等人（2022年b）和王等人（2024b）进一步发现，LLMs中的一些参数，称为有毒区域，与有毒内容的生成密切相关。季等人（2024年）甚至推测LLMs抵抗对齐。因此，传统的对齐方法，如DPO（Rafailov等，2023年）和SFT，似乎只是绕过有毒区域（李等，2024年；王等，2024b），使它们容易受到其他越狱攻击的影响（张等，2023d）。

受LLMs中的知识机制分析启发，一个有前途的可靠策略可能是在预训练阶段设计架构和训练过程，以奖励模块化（Liu等，2024c，2023b），稀疏性（Chughtai等，2023）和单一语义性（Bricken等，2023；Jermyn等，2022），这使得逆向工程过程更易处理（Jermyn等，2022；Bricken等，2023；Liu等，2024c；Tamkin等，2023）。然而，为了维持大量世界知识的稀疏性需要巨大资源，并且单一语义性架构能否支持先进智能仍然是个迷。此外，机器遗忘（Nguyen等，2022；Tian等，2024；Yao等，2023a）旨在忘记LLMs学到的隐私或有害信息。然而，这些遗忘方法存在过拟合的问题，由于难以分解逐字记忆和一般能力，可能会忘记一些有价值的东西（Huang等，2024c；Blanco-Justicia等，2024）。另一种替代技术是知识编辑，利用后训练阶段的少量实例精确修改LLMs（Mazzia等，2023；Yao等，2023b；Wang等，2023d；Hase等，2024；Qian等，2024b）。大量实验证明知识编辑有潜力解毒LLMs（Yan等，2024）。具体地，（Wu等，2023a）和Geva等人（2022b）分别关闭与隐私信息和有害标记相关的神经元。（Wang等，2024b）确定并擦除LLMs中有害区域。然而，知识编辑也会带来副作用，例如修改后的知识无法泛化到多跳任务（Zhong等，2023；Li等，2023d；Cohen等，2023；Kong等，2024）以及可能削弱模型的一般能力（Gu等，2024；Qin等，2024）。因此，最近的努力集中在对表示进行编辑，而不是在知识编辑中编辑参数（Zou等，2023；Turner等，2023；Zhou等，2023b；Zhu等，2024）。LLMs内部的这些表示（隐藏状态）可以追踪和解决一系列与安全相关的问题，包括诚实、无害和追求权力。随后，（Wu等，2024）开发了一系列表示微调方法来更新新知识。（Zou等，2024）提出了断路器（Li等，2023b），直接控制负责产生有害输出的表示。然而，这些表示编辑策略需要为每个任务进行细致的超参数调整。需要更高效的优化方法以符合计算或时间约束。

6 讨论

在这一部分，我们讨论一些未解决的问题，并试图探索它们的本质和基本原则。具体来说，在第6.1节我们讨论了LLMs所学到的知识，审视了所学知识在应用中的脆弱性在第6.2节，分析了机器或人类尚未学习的“暗知识”在第6.3节，并探讨LLMs如何从跨学科的角度拓展未知知识的边界在第6.4节。

6.1 LLMs学到了哪些知识？

批评者质疑LLMs是否真正拥有知识，还是仅仅在模仿。

(史瓦西尔德等，2024)，类似于“随机帕罗”（本德等，2021年）和“聪明汉斯”（夏皮拉等，2024年）。我们首先通过观察现象从以下三个层面审视疑虑：1）记忆：LLMs主要依赖位置信息而非语义理解（李等，2022年）来预测答案。此外，由于不同表达方式，LLMs可能对同一问题生成不同答案。2）理解和应用：Allen-Zhu和李

(2023b)认为，尽管大型语言模型能够完美地存储和充分提取预训练数据中的知识，但它们很难有效地应用这些知识。因此，大型语言模型在各种推理任务（Wu等，2023b；Nezhurina等，2024；Gutiérrez等，2024）以及逆转诅咒方面遇到困难（Berglund等，2023）。此外，大型语言模型还不能可靠地充当文本世界模拟器，并且在规划方面遇到困难（Wang等，2024d）。3）创造力：尽管大型语言模型能够生成新术语，但其质量往往低于人类创造的术语（Raiola，2023）。尽管大型语言模型具有知识，但一些批评者认为当前的分析方法可能只能解释低级别的共现模式，而无法解释内在机制。主要批评指出，大型语言模型中负责某些类型知识的组件在实际应用中表现不佳（Hase等，2023）。此外，大型语言模型中负责特定知识的组件在不同方法下会有所不同。针对这些批评，Chen等（2024f，d）提出了退化神经元，并认为不同的退化组件确实独立地表达一个事实。Chen等（2024e）阐明了知识存储和表示机制的差异，提出了查询定位假设来回应这些争议。Zhu和李（2023）进一步观察到，由于知识在预训练阶段并未经过充分增强（例如，通过改写、句子重排），因此知识可能只是被记忆而未被提取。因此，重写训练数据以提供知识增强，并在预训练阶段纳入更多的指导微调数据，可以有效缓解上述挑战和批评。

尽管受到相当多的批评，主流观点（Didolkar等人，2024年；Jin和Rinard；Jin，2024年）是目前的LLM可能通过记忆具备基本的世界知识，但几乎不掌握推理和创造力的基本原则。换句话说，LLM通过记忆掌握基本知识（在§3.1中讨论）。尽管LLM具有理解和应用知识的基础能力（在§3.2中讨论），展现出可信的和令人印象深刻的推理能力。由于LLM中知识的脆弱性（在§6.2中详细阐述），目前的LLM仍然在复杂任务中的推理和规划方面遇到困难。这些推理和规划能力通常需要通过ICL和CoT等技术来引导。不幸的是，由于架构限制（在§3.3中讨论），目前的LLM几乎无法创造。因此，一些学者探索各种架构选择（例如，Mamba（Gu和Dao，2023年））和培训程序。此外，最近的研究尝试通过操纵神经元、知识电路或表示（Allen-Zhu和Li，2023b；邹等，2023年；吴等，2024年；李等，2023a）来探索更多知识，并唤醒LLM的推理和规划能力。

备注：LLMs通过记忆学习了世界基础知识。然而，所学知识容易脆弱，导致在知识理解和应用方面面临挑战。不幸的是，由于架构限制，当前的LLMs在创造方面存在困难。

6.2 为什么学到的知识容易变得脆弱？

LLM所学习的知识是脆弱的，这导致了应用中的挑战，包括幻觉、知识冲突、推理失败和安全风险。幻觉指的是LLM生成的内容与现实世界的事实或输入有所偏差（Huang等，2023b; Xu等，2024d; Farquhar等，2024; Chen等，2024c）。一方面，事实性幻觉强调生成内容与现实知识之间的不一致。另一方面，忠实性幻觉描述了生成内容与用户指令或输入背景的偏离，以及生成内容中所保持的连贯性。知识冲突固有地表示知识中的不一致（Xu等，2024b; Kortukov等，2024）。一方面，模型内部存储中的冲突导致LLM呈现出不可预测的行为，并对语义上等同但在句法上不同的输入产生不同的结果（Xu等，2024b; Wang等，2023a; Feng等，2023b; Raj等，2022）。另一方面，上下文-存储冲突出现在外部上下文知识与内部参数知识相矛盾时（Xu等，2024b; Mallen等，2023）。

我们认为，这些挑战主要源于不当的学习数据。具体地，幻觉是由数据引入的（康和崔，2023年；翁，2024年；张等，2024年c），在预训练过程中加剧（布朗等，2020年；江和乔拉克，2022年），在对齐（阿扎里亚和米切尔，2023年；欧阳等，2022年），以及解码策略的不足（范等，2018年；庄等，2023年；师等，2023年）。内部记忆冲突可以归因于训练语料库的偏见（王等，2023年b），并由解码策略（李等，2022年b）和知识编辑加剧。上下文-记忆冲突主要源于训练过程中准确知识的缺失，需要从数据库和网络中检索。失败的推理通常源于不当的数据分布。具体地，知识可能被记忆，但在没有足够的增强（例如，通过释义，句子重组）的情况下在预训练期间不可提取或应用（朱和李，2023年）。安东尼亚德斯等人（2024年）还深入探讨了参数化知识和学习数据之间的机制，表明训练数据的分布在定性上影响泛化行为（蒋等，2024年a）。王等（2024年a）进一步指出，语料库中的不当数据分布导致LLM缺乏必要的推理组件，例如用于两跳推理的桥梁层。类似的机制分析也支持以上结论，指出幻觉是由缺乏移动头（姚等，2024年；余等，2024年b）引起的，而知识冲突源于最后几层中电路竞争失败（吕等，2024年；梅鲁洛等，2023年b；哈塞等，2023年；朱等，2024年；金等，2024年b）。此外，数据数量对知识的稳健性至关重要。具体地，LLM可以系统地从大量数据集中学习对世界的全面理解，而后训练阶段的数据量较少可能会损害知识表征的稳健性。这一假设得到了许多后训练失败的确认。例如，SFT加剧了幻觉（格克曼等，2024年；康等，2024年），而知识编辑放大了知识冲突（李等，2023年；杨等，2024年c）。注意，安全问题通常由未见数据的分发引起（敌对输入）（魏等，2023年；李等，2024年c），详细阐述在§5.2。

备注：由于数据分布和数量造成的不当学习可能是根本和主要原因。

6.3 难以学习的“暗知识”是否存在？

数据的分布和质量对于知识获取和模型鲁棒运行至关重要（机器）。想象一种理想的情形，我们可以访问各种数据来训练机器。这些数据包括所有可能的模态，如文本、图像、音频、视频等。模型还可以相互交互及与外部交流。

在这种长期的发展过程中，智能对人类或模型（机器）是否仍然存在未知的黑暗知识？

我们推测未来智能仍将存在暗知识。如图4所示，暗知识描述了以下三种情况下人类或机器未知的知识：1）对人类未知但对机器已知的知识（UH，KM）。机器利用大量数据来探索内部模式，而人类由于生理限制和计算限制而难以处理这些数据（Burns等，2023年；McAleese等，2024年）。（UH，KM）包括基因预测、智能交通系统等。具体来说，蛋白质的结构解析长期以来一直使人们感到神秘。通过捕捉数百万张图像，冷冻电子显微镜首次揭示了蛋白质的三维结构。现在，神经模型可以直接高效而准确地预测蛋白质的特性（Pak等，2023年）。2）对人类已知但对机器未知的知识（UH，KM）。一方面，一些学者声称机器可以拥有“心灵理论”能力（Zhu等，2024年）和情感（Normoyle等，2024年）。另一方面，批评者认为机器缺乏感知能力（Alvero和Peña，2023年）只是以概率训练生成标记。这些情感和感知（如饥饿、快乐和孤独）的原因、范围和动态因素微妙而复杂，使得机器通过精确数学建模变得极具挑战性。具体来说，不同因素紧密耦合，几乎不可能解开清晰的输入-输出关系，就像良好定义的实际知识那样。有情感的知识还表现出混沌行为（Li等，2020年；Debbouche等，2021年），对初始条件高度敏感，微小变化可能导致截然不同的结果（Segretain等，2020年）。因此，反对者认为，无论机器拥有多少参数，它都无法学习人类掌握的所有知识。3）对人类未知并对机器未知的知识（UH，UM）超出了我们的认知范围，例如量子力学的不确定性和宇宙的起源。一般来说，暗知识超越了当前的数据和模型架构（Tseng等，2024年）。（UH，UM）需要人机合作。然而，关于（UH，KM）和常识

图4:知识的未来认知。箭头的方向代表知识从已知到未知的过渡。灰色表示未知于人类或机器的暗知识。蓝色突出显示已知于人类和机器的普通知识。

(KH, UM)将通过模型架构、训练数据和计算资源来解决。请注意，图4中人类和机器所知道的常识包括明确定义的历史事件、数学定理、物理定律等。

备注：黑暗知识可能持续很长时间，需要人机协作来探索。

6.4 如何从跨学科灵感中探索更多知识

LLMs如何利用人类在历史上不断探索知识的经验，持续缩小黑匣知识的边界，实现更高级别的智能？我们可以从以下跨学科研究中获得灵感。

神经科学研究大脑在分子、细胞、神经回路和神经网络水平上的结构和功能（Squire等，2012）。一般来说，LLM中的机制分析和神经科学都利用观察和干预方法来研究知识学习和记忆、决策制定、语言、感知和意识的基本原理。人脑的生物信号和LLM中的内部激活信号能够相互转化（Caucheteux等，2023; Feng等，2023a; Mossing等，2024; Flesher等，2021）。凭借神经科学的进展（Jamali等，2024; de Schotten等，2022; Lee等，2022a），LLM中的机制分析已经确定了类似的功能神经元和区域（Zhao等，2023a）以及知识回路（Yao等，2024）。此外，利用神经科学中的可塑性理论，LLM解释了智能的技术支持（Sæbø和Brovold，2024）。未来，LLM的机制分析可能会从神经科学中汲取灵感，指导下一代人工智能在组织神经框架、存储和利用知识方面（Ren和Xia，2024; Momeni等，2024; Yang等，2024b）。

认知科学专注于心智及其过程（Kolak等，2006年；Baronchelli等，2013年），其中包括语言、知觉、记忆、注意力、推理、情绪和心理状态。尽管认知科学和神经科学在其研究内容上存在重叠，但认知科学更侧重于抽象知识，如心理状态和情绪，而非具体知识。因此，Zhu等（2024年）从认知科学的心理学视角跟踪LLM中的自我和他人信念（被称为“心灵理论”）。Wang等（2022年）进一步观察了多智能体沟通和合作中的社会认知能力。总的来说，从认知科学的角度来看，有潜力探索LLM中的高级认知能力（Vilas等，2024年）。

**心理学是对心智和行为的科学研究，包括意识和无意识现象，以及思维、情感和动机等心理过程。**受益于几十年对人类心理学的研究，机器心理学旨在将LLMs作为心理学实验中的参与者，揭示其决策和推理机制（Hagendorff，2023年）。机器心理学可能探究塑造机器行为、态度和信念的社会情境和互动的奥秘（Park等，2023a）。此外，群体心理学为探索LLMs（代理人）之间的辩论和协作等动态铺平了一条光明的道路。例如，在认知心理学领域中描述的邓宁-克鲁格效应（Mahmoodi等，2013年；Brown和Esterle，2020年）说明在某一领域内能力有限的个体倾向于高估自己的能力，反之亦然。这一现象可能影响群体辩论和讨论中的最终投票。令人鼓舞的是，学习心理学可以应用于研究提示设计，提升学习效率，改善沟通策略，并为LLMs开发反馈机制（Leon，2024年）。

教育是知识、技能和品格特征的传递，在各种形式中体现。受人类教育启发，张等人（2024a）将机器学习模型中的知识获取划分为三个不同阶段：识别、关联和掌握。此**外，教育指导人类管理各种类型的冲突：识别外部信息的不一致（跨语境冲突）、在外部来源和内部记忆之间做决策（语境-记忆冲突）、解决记忆混乱（内部记忆冲突）及解决文化冲突。**上述知识冲突和整合也存在于机器学习模型的知识进化中，涉及个体和群体（Dan等人，2023）。幸运的是，教育帮助人类学会学习。机器学习模型能够像人类一样自主进化以持续适应社会变化和需求吗？

备注：LLMs可以改进其架构和机制，从神经科学中汲取灵感进行知识的学习、记忆和表达。此外，认知科学和心理学为LLMs在进化过程中复杂智能、新兴能力和行为提供了有前途的替代方案。教育研究可以启发LLMs的学习策略，在它们的进化过程中引导冲突并整合知识。

7未来方向

7.1 参数化 VS. 非参数化知识

LLMs可以被理解为参数化知识记忆，其中模型的参数（通常是神经网络的权重）编码了世界知识的表示。这种参数化的知识存储方法意味着知识被隐式地嵌入在模型的架构中，并且可以通过神经网络的计算过程进行检索和操作。相比之下，非参数化知识存储涉及到知识被明确表示并可以直接访问的方法。非参数化知识存储的例子包括知识图、数据库和符号推理系统，其中知识被表示为离散符号或事实。参数化知识使LLMs能够深度压缩和整合信息，让它们能够推广并将这些知识应用于各种情境。这类似于LLMs通过参数化知识掌握了“mod”数学运算规则，使它们能够推广并无缝解决所有与mod相关的问题。相反，非参数化知识对于每个用户查询需要在知识空间中进行广泛搜索。随后，王等人（2024a）还证明了非参数化知识在复杂推理任务中严重失败，准确率接近随机猜测。不幸的是，LLMs内的参数化知识是不透明的，经常面临着解释性问题、过时信息、幻觉和安全问题。

解决这些问题通常需要利用外部非参数化知识，它提供透明度、灵活性、适应性和操作的便利性。然而，在LLMs中用非参数化知识增强参数化知识（杨等，2024b; 罗等，2023; 温等，2023; 柯等，2024）仍然面临着来自大量信息中的检索准确性、上下文长度和资源限制（尚等，2024; 赵等，2024b）的挑战。此外，在"沙堆中推理"实验中同时从长篇文本检索相关信息并进行推理几乎是不可能的（尚等，2024）。同样，增强非参数化知识——无论是通过从LLM的参数化知识中提炼知识（韦斯特等，2022; 卡泽米等，2023）还是直接将其用于解析文本（张等，2023b）——也存在着重要挑战。此外，杨等（2024b）提出了一种介于参数化知识与非参数化知识之间的新颖显式记忆。具有显式记忆的LLM具有较小的参数大小和更低的资源消耗，用于检索外部非参数化知识。

**总的来说，受到LLMs中知识机制分析的启发，我们有潜力为LLMs内部的知识组织开发更多的架构和学习策略。**这些高效的LLMs（Sastry等，2024年）正在通过结合参数化和非参数化知识的优势，逐渐向着更低的GPU、计算和存储资源需求以及更小的模型大小发展（Yang等，2024b；Momeni等，2024年；Chen，2024年；Pan等，2024b，2023b）。

7.2 具身智能

目前的LLM仍不能被视为一个真正智能的生物（Bender和Koller，2020；Bisk等，2020）。人类语言习得过程并不仅仅是积极主动听语言的过程。相反，它是一个积极而互动性的过程，涉及与物理世界的互动和与其他人的交流。为了提升当前LLM的能力并将其转变为一个强大的代理，有必要使其能够从多模态信息中学习并与环境和人类进行交互。

**多模态LLMs。**在领域中整合多种模态是一个关键挑战。

LLMs和具身人工智能。虽然LLMs在处理语言数据时展示了令人印象深刻的能力，但它们在无缝地整合和综合来自其他模态（如图像、语音和视频）的信息的能力仍然是一个积极研究的领域。然而，当前的多模态模型面临挑战，特别是在需要理解和集成文本和图像信息的复杂推理任务中。

近期研究（Huang等，2024a; Chen等，2024b）突出了模型在语言任务中的表现与其有效整合不同模态知识的能力之间的差异。这些发现表明，当前模型通常优先考虑语言信息，未能充分利用多模态数据的协同潜力（Wang等，2024c）。在这方面有一些开创性的努力（Pan等，2024a; Schwettmann等，2023a），旨在揭示多模态模型存储和检索信息的机制。尽管取得了进展，但仍需要进一步的探索，以加深我们对多模态知识存储的理解。

自我进化。如前所述，当前的语言模型主要是基于调整以获取知识，这需要大量的训练和高质量的数据。这些学习是被动的，而作为一个人，进化通常也经历沟通和互动。作为一个智能体，模型应该能够通过互动学习，并自发地自主学习。最近，一些工作尝试让模型自主学习（张等，2024年）或通过与环境互动学习（徐等，2024年；席等，2024年）。通过整合自我进化机制，模型可以持续更新他们的知识库，并在不仅仅依赖于手动筛选的数据集的情况下提高他们的理解。这不仅减少了对大规模标记数据的依赖，而且还允许模型随着时间适应不断演变的语言规范和文化背景。

7.3 领域LLMs

通用LLMs的成功确实激发了针对特定知识领域定制的领域专属模型的发展（Calderon和Reichart，2024年），比如生物医学（Yu等，2024a; Moutakanni等，2024年），金融（杨等，2023年），地球科学（邓等，2023年），海洋科学（毕等，2024年），等等。然而，与人类语言不同，这些不同领域的知识具有特定的特征。目前还不清楚LLMs能否获取复杂科学知识，或者这种知识是否仍属于当前黑暗知识的范畴。此外，诸如数学等领域特定知识与文本知识是否共享相同的基础机制（Bengio和Malkin，2024年），还是展现出更复杂的知识获取机制？目前，对这些领域特定知识的机制缺乏研究，同时对于进一步深入理解这些机制的重要性日益受到认可。

领域专用模型中的数据稀疏性和多样性构成另一个挑战。稀疏性通常是由于保密性、隐私和在专业领域获取成本造成的。至于多样性，知识的呈现在不同领域之间存在差异。例如，在生物医学领域，知识包括复杂的生物概念，如蛋白质和分子的结构和功能。这要求模型整合超越自然语言的理解，通常涉及图形表示，比如化学结构，无法直接用文本表达。同样，在金融和法律等领域(Lai等人，2023年)，模型必须基于领域特定知识进行复杂推理和决策过程。因此，为领域专用模型收集高质量数据（包括合成数据生成）以及有效地嵌入领域知识到LLM中是需要立即关注的关键任务。

8 结论

本文提出了一种新颖的知识机制分析分类法，并审查知识演化。我们进一步讨论了知识利用问题，以及未被挖掘的暗知识。我们希望这些观点能够激发一些未来研究的有益方向，并为更强大和可信赖的模型提供启示。

限制条件

这项工作具有以下一些限制：

尽管已经审阅了大量文献并提出了几个有前途的假设，但仍然存在一些限制。一方面，可能存在其他关于LLM中知识利用和演化的假设。另一方面，这些假设的准确性需要随着时间进一步探索和验证。

**知识。**有各种形式的知识表示。然而，由于当前的研究限制，本文不深入探讨空间（Li et al.，2024f），时间（Gurnee和Tegmark）2023), event-based knowledge, and geoscience (Lin et al., 2024). 2023年，基于事件的知识和地球科学（Lin等，2024年）。

领域知识机制的发展迅速，本文可能遗漏了一些重要的参考文献。此外，由于页面限制，我们省略了某些技术细节。我们将继续关注和补充新作品。

尽管本文提到了人工神经模型，但知识机制分析集中在LLMs上。我们将继续关注其他模型的进展。另外，所有现有的研究都没有考虑到参数超过1000亿的模型。大规模模型内的知识机制是否与较小模型一致仍有待研究。

伦理声明

我们预计我们的研究不会引起任何道德或社会问题。然而，我们承认大型语言模型的内部机制可能会被用于恶意目的。我们认为这种恶意应用可以通过模型访问和立法规定来防止。更重要的是，透明的模型有助于发展更安全、更可靠的通用人工智能。

致谢

我们要感谢匿名审稿人的批评意见。本工作得到了中国国家自然科学基金（No. 62206246, No. NSFCU23B2055, No. NSFCU19B2027）、中央高校基本科研业务费专项资金（226-2023-00138）、浙江省自然科学基金（No. LGG22F030011）、永江人才引进计划（2021A-156-G）、浙江大学信息技术中心和计算机辅助设计与计算机图形学国家重点实验室以及新加坡国立大学-新加坡国家计算机科学研究院联合实验室（A-0008542-00-00）的支持。

参考文献

引用省略。。。。。。

A知识演化方法的比较

由于页面限制，第4节并未详细列举各种技术和细节，比如机器遗忘和知识增强。因此，在本节中我们简要概述后训练阶段的常见方法，并在图5中说明它们的关联和差异（张等人，2024a）。

1.持续学习旨在不断获取新技能，学习新任务的同时保留先前获得的知识。

2.参数高效微调（PET）（Zhang等，2019）仅更新最小的一组参数，而不是全面微调。一种很有前景的策略是LoRA（Hu等，2022）。

3.知识增强被提议为帮助模型处理LLMs中的未知知识（张等，2019年；韩等，2022年）。 RAG（黄和黄，2024年）是最为普遍的方法。此外，知识增强还包括提示工程（顾等，2023年；Kraljic和Lahav，2024年；梁等，2023b）和上下文学习（罗等，2024年a）。

4.机器去学习（Nguyen等，2022年；Tian等，2024年；刘等，2024年d）专注于从大型语言模型中丢弃不良行为。

5.编辑，包括知识编辑（张等，2024a）和表示编辑（吴等，2024），旨在实现对LLMs的快速和精确修改。通常，编辑首先确定LLMs中的知识位置，然后通过几个实例精确修改模型行为。

B普适智能

为了验证本文中的假设在不同架构上的适用性，我们首先在§B.1介绍其他流行的模型架构，并观察我们的假设在其他模型架构上的普适性在§B.2。另外，最近的研究进一步声称，通过不同数据、模态和目标训练的模型正在收敛到共享的表示空间（Huh等人，2024年）。

图5：知识演进不同方法的比较。

人工和生物神经网络也共享相似的特征和电路，暗示着一个普遍的基础机制（Sucholutsky等，2023年；Chan等，2023年；Kornblith等，2019年）。因此，类似于生物分类学，我们介绍人工神经模型家族，并在第B.3节讨论未来可能的普遍智能。

B.1 模型架构

8.1.1 Transformer

**多层感知机（MLP）是神经网络中的关键组件，通常由多个全连接层组成。**在Transformer架构中，MLP在对输入隐藏状态应用非线性变换方面发挥着重要作用，从而丰富了模型的表达能力。更确切地说，每个MLP块包含两个线性变换，这两个变换之间有一个逐点激活函数σ：

σ是逐点激活函数，通常是一个非线性函数，如ReLU或GELU。WKl是第l层中第一次线性变换的权重矩阵，将输入隐藏状态hl映射到一个中间表示。WVl是第l层中第二次线性变换的权重矩阵，将中间表示转换为MLP块的输出。

注意力机制是神经网络中的一种机制，特别是在像Transformer这样的模型中，它捕捉序列中不同位置之间的依赖关系。它通过将每个输入元素转换成查询（Q）、键（K）和值（V）向量，计算元素之间的注意力分数，然后根据这些分数计算值的加权和来工作。具体来说，对于表示为矩阵X的输入序列，转换如下：

WQ、WK 和 WV 是学习得到的投影矩阵。注意力分数是使用缩放点积注意力机制计算得出的：

H =注意力(Q,K,V) = Softmax

Key向量的维数为dk。这使得模型能够自适应地关注序列的不同部分，在重要的任务中表现得很好，比如自然语言处理，其中理解长距离依赖很重要。

变种的Transformer也取得了成功。例如，RWKV（Peng等，2023年）将Transformer的高效可并行训练与RNN的高效推断相结合，同时减轻了它们的局限性。TTT（Sun等，2024年）用机器学习模型取代了RNN的隐藏状态。TTT通过对输入标记进行实际梯度下降来压缩上下文。RetNet（Sun等，2023年）从理论上推导了循环和注意力之间的联系，同时实现了训练的并行性、低成本推断和良好性能。

B.1.2 SSM

Mamba由Gu和Dao（2023年）引入，是基于状态空间模型（SSMs）的最新一代自回归语言模型家族。Mamba采用了一种名为MambaBlock的独特架构，该架构取代了Transformer层中使用的注意力和MLP块。

具体来说，Mamba将一个标记序列x = [x1,x2,…,xT] 映射到下一个标记y的概率分布。每个标记xi首先嵌入到一个尺寸为的隐藏状态中，然后通过一系列的MambaBlocks进行逐个转换。第ℓ个MambaBlock后的隐藏状态计算如下：

在统计学中，F分布是一种连续概率分布，在假设检验统计量的零分布中经常出现，尤其是在方差分析中。

第l个MambaBlock对第i个标记的输出是Conv和SSM操作的组合和一个门控机制：

市场细分是指将市场分成具有不同需求、特征或行为的买家群体的过程。

在这里，⊗ 表示逐元素相乘。计算的过程如下：

选择性SSM

方程（12）和（13）中的操作分别对应于Conv和SSM操作。门控机制如下：

这里使用的公式和概念是从Sharma等人(2024年)中调整而来。

相较于Transformer，Mamba的设计实现了更高效的并行训练，有效地捕捉序列间的依赖关系，适用于各种自然语言处理任务。

B.1.3愿景和多模态模型

在视觉和多模态模型领域，涌现出了各种架构，每种架构都有其独特的方法来解决复杂的视觉任务。例如，生成对抗网络(GANs) (Goodfellow等，2014) 包括两个神经网络：生成器和判别器。通过对抗学习，生成器旨在生成逼真的数据样本（如图像），而判别器试图区分真实数据和生成的数据。扩散模型 (Diffusion Model) (Li等，2023c; Sohl-Dickstein等，2015) 是生成高质量图像和数据的强大工具。它通过逐渐添加和移除噪声来模拟扩散过程以实现数据生成。ResNet (残差网络) (He等，2016) 引入了残差学习，通过跳跃连接改进了深度网络训练的效率和性能。ViT (视觉Transformer) (Dosovitskiy等，2021) 将Transformer架构集成到视觉任务中，通过处理图像补丁来捕捉长距离依赖关系。

B.2其他领域的知识机制架构设计

出乎意料的是，在**其他架构模型中也发现了与基于Transformer的LLM中发现的相似机制。**具体来说，Mamba采用了类似于Transformer的知识记忆机制（Sharma等，2024年）。视觉和多模态架构也采用了用于知识利用的功能区域（模块化区域假设）（Pan等，2023a; Schwettmann等，2023a; Koh等，2020; Bau等，2017），例如，多模态神经元区域负责多模态任务。此外，视觉架构模型中发现了神经元之间的连接假设（Olah等，2020年）。Olah等人（2020年）进一步指出，不同类型的知识重用部分组件，例如，汽车和猫重用相同的神经元（重用假设）。至于动态智能假设，它本质上关注整个人工神经模型。一般来说，不同架构中的神经模型，在不同的数据和模态上以不同目标进行训练，都会收敛到在其表示空间中的现实的共享统计模型（Huh等，2024年）。这些神经模型可能倾向于共享类似的知识机制和想象力（Zhou等，2024年）。

B.3 机器与人类

类似于生物分类学中的类人科家族，人工神经模型可以被视为神经模型家族：

1.家族：神经模型，类似于“人科”。

2.属类_Genus:_:Transformer架构，Mamba架构等，类比于“Homo”和“Pan”。

3.物种：BERT、GPT、Llama、Mistral、Mamba等，被比作“智人”、“黑猩猩”和“猩猩”。

在隐喻上，Llama-7B、Llama-13B、Llama70B等可以被视为人类的婴儿期、童年和成年期。Shah等人（2024）进一步发现，不论模型大小如何，PLMs的发展轨迹一致地展示出与人类认知发展最大对齐的窗口。因此，我们假设人工神经网络（机器）和生物神经网络（人类）倾向于趋同智能。换句话说，人类和机器分享相似的特征和电路。

具体来说，大量证据表明，机器和人类在知识记忆方面共享相同的机制，即模块化区域和连接（de Schotten等人，2022年）。现代语言模型的激活也可以线性映射到大脑对语音的反应（Caucheteux等人，2023年）。Caucheteux等人（2023年）通过预测编码理论开创性地解释：尽管基于变压器的语言模型被优化来预测附近的词汇，但人类大脑将不断预测跨越多个时间尺度的层次性表示。上述现象表明，机器和人类在知识的基本机制方面存在相似之处（Sucholutsky等人，2023年；Chan等人，2023年；Kornblith等人，2019年），无论它们具体的配置，处理和理解信息的方式如何。这可能是由于神经网络中固有的归纳偏见（Sæbø和Brovold，2024年）或自然抽象（Chan等人，2023年）——自然界青睐的概念，任何认知系统都会自然倾向于向前吸引（Bereska和Gavves，2024年）。

C 工具用于机理分析

**存在许多工具用于解释LLM中的知识机制。**Transformer Lens (Nanda和Bloom, 2022) 是一个用于观察和干预机制解释性的库。TransformerLens 允许用户在模型运行过程中缓存、移除或替换内部激活。XMD (Lee等人, 2023a) 通过直观性提供各种形式的反馈，使解释与用户反馈一致。NeuroX (Dalvi等人, 2023) 在统一API下实现各种解释方法，然后提供LLM的可解释性。PatchScope (Ghandeharioun等人, 2024) 是谷歌开发的一种工具，采用一种新颖模型来阐明原始模型中的隐藏状态。Transformer Debugger(Mossing等人, 2024) 是OpenAI的一种解释性工具，利用GPT-4和稀疏自编码器来解释语言神经元。稀疏自编码器 (Gao等人, 2024b) 利用稀疏自编码器从稀疏瓶颈层重构激活，提取可解释特征。Transcoders (Dunefsky等人, 2024) 将涉及MLPs的模型计算分解成可解释的电路。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述