论文解读 | EMNLP 2024 | 大语言模型中的知识机制：综述与展望_knowledge mechanisms in large language models:a su-CSDN博客

本文链接：https://blog.csdn.net/2302_79932616/article/details/147492269

大语言模型中的知识机制：综述与展望

原论文地址：

https://arxiv.org/abs/2407.15017

“Knowledge Mechanisms in Large Language Models: A Survey and Perspective”由Mengru Wang、Yunzhi Yao等人撰写。该论文对大语言模型（LLMs）的知识机制进行了全面且深入的探讨，提出了涵盖知识利用和知识进化的全新分类体系，详细剖析了LLMs在知识学习、存储、运用及发展过程中的种种现象与问题，为该领域的后续研究提供了坚实的理论基础和极具价值的研究方向。

一、研究背景与目的

在人工智能迅猛发展的当下，大语言模型（LLMs）凭借强大的语言处理能力在多领域成果显著。然而，其知识学习、存储、利用和进化的内在机制尚不明确。现有不少研究借助知识神经元和知识电路等探索 LLMs 的知识奥秘，但较为零散，缺乏系统梳理与深入分析。

这篇文章填补了这一方面的空白，提出新的分类体系，将知识机制分为知识利用和知识进化两方面。通过该体系深入探讨 LLMs 学到的知识类型、知识脆弱的原因、潜在暗知识，以及跨学科拓展知识边界的方法，为后续研究提供方向与参考。

二、研究方法

2.1 知识范围与定义

知识是人类对客观世界认识的结晶，它涵盖了对事实的认知、对事物的理解以及通过经验积累所获得的信息。

在大语言模型（LLMs）的语境下，知识的定义与传统认知有所关联，但也具有其独特性。若LLMs能针对某一知识相关问题给出正确答案，那么我们就认为该模型掌握了这一知识。

例如，当被问及“2024年美国总统是谁”，如果模型能够准确回答“拜登”，则表明它对这一知识有所掌握。这里的知识记录形式多样，既可以是文本形式，也能通过问答对、音频、视频或图像等方式来呈现。

2.2 模型架构

当前，Transformer 架构在 LLMs 领域占主导，由多头自注意力（Attention）和多层感知器（MLP）组成。运行时，输入经词嵌入转向量，再通过多层 Transformer 块处理，最后经词反嵌入预测答案。

Transformer 块中，Attention 机制将输入元素映射为 Q、K、V 向量，计算注意力分数并加权求和，聚焦关键信息；MLP 通过两个线性变换和激活函数，对隐藏状态进行非线性变换，增强模型表达能力。

除 Transformer 外，还有不少架构受关注。如 Mamba 架构基于状态空间模型（SSMs），用 MambaBlock 替代 Attention 和 MLP 块，能高效并行训练并捕捉序列依赖。TTT、RWKV 等架构，以及计算机视觉和多模态领域的架构，也各有优势，在不同场景表现良好。

2.3 知识分析方法

为了深入探究LLMs中的知识机制，研究人员采用了多种知识分析方法，主要可分为观察法和干预法两大类。

观察法旨在直接观察模型内部信息，通过特定的评估指标（如探针、logit lens和稀疏表示等）将模型组件的输出转化为人类可理解的形式。

以探针为例，它是一种经过精心训练的分类器，通过分析其分类性能来观察模型行为与特定组件输出之间的关系。

干预法则是通过对模型进行直接干扰，如在输入或神经元中引入噪声，然后观察模型的输出变化，以此来确定关键组件与模型行为之间的因果关系，常见的方法包括因果中介分析、激活修补等。

三、LLMs中的知识利用

受Bloom认知水平分类理论的启发，文章作者将LLMs中的知识表示和利用划分为记忆、理解与应用、创造三个层次，这有助于更系统地理解LLMs在知识处理过程中的不同能力和表现，如下图：

3.1 知识记忆

知识记忆是LLMs知识处理的基础环节，主要是指模型对训练语料库中各类知识的存储和回忆能力。这些知识涵盖了特定术语、语法规则、事实信息、常识以及概念等多个方面。

基于模块化区域假设，在Transformer模型中，知识被认为是由孤立的模块化区域进行编码的，其中MLP和注意力头发挥着关键作用。MLP不仅能够编码语义和句法概念，还被发现可以存储事实知识和常识知识。

例如，研究发现单个MLP神经元能够生成特定的词汇，这表明MLP在知识表示中具有精细的控制能力。注意力头同样在知识存储中扮演重要角色，它可以存储语言特征、位置信息等，并且在传递事实知识和偏差信息方面发挥着关键作用。

而连接假设则从另一个角度强调了不同组件之间连接的重要性。该假设认为，知识不仅仅是由孤立区域编码，不同组件之间的连接才是整合知识的关键因素。

知识电路框架的提出进一步支持了这一观点，研究发现多种类型的知识，如语言知识、常识知识、事实知识和偏差信息等，都被封装在特定的知识电路中，这些知识电路在模型的知识处理过程中发挥着不可或缺的作用。

3.2 理解与应用

知识的理解与应用是LLMs在实际任务中展现智能的重要体现，它要求模型能够展示对记忆知识的深入理解，并运用这些知识在新的情境中解决问题，如进行领域外任务的泛化、推理和规划等。

重用假设是理解LLMs知识理解与应用机制的关键。从模块化区域的角度来看，LLMs在处理任务时会重用一些特定的区域，这些区域可以是少量的神经元、注意力头、MLP，甚至是整个Transformer层或部分知识电路。

一般来说，早期层往往存储着基本的知识，如位置信息、n - gram模式和句法特征等，因此与这些基本知识相关的神经元更容易被重用。例如，在数学推理任务中，模型会利用初始层的注意力机制将输入信息映射到最终的令牌位置，然后通过后续层的MLP生成答案。

从连接的角度来看，相似的任务往往会共享部分知识电路。例如，在处理间接对象识别和彩色对象任务时，模型会重用相同的知识电路；在进行两跳组合推理任务时，会复用第一跳的知识电路。这表明知识电路在不同任务之间的共享和复用是LLMs实现高效知识应用的重要方式。

3.3 知识创造

知识创造是LLMs知识处理能力的高级体现，它强调模型形成新颖且有价值事物的能力。这包括生成新的术语，如设计新的蛋白质、分子、代码、视频等，以及创造新的规则，如提出新的数学定理等。

外推假设认为，LLMs可以通过对世界运行原理的洞察，从已知的离散点进行外推，从而创造新的知识。然而，目前LLMs在知识创造方面仍面临诸多挑战。

从统计角度来看，神经元之间复杂的连接和激活难以进行详尽的分析；在价值评估方面，由于模型架构的限制，LLMs自身难以对生成内容的价值进行有效评估，这导致了生成内容的质量参差不齐，例如著名的幻觉问题就是这一困境的体现。

3.4 不同机制分析方法比较

在研究LLMs知识机制的过程中，观察法和干预法通常相互结合使用，以更全面地追踪知识在模型中的流动和作用。

不同的假设适用于不同的分析方法，模块化区域假设既可以通过观察法进行分析，也可以借助干预法来验证；而连接假设由于侧重于研究区域间的连接性，通常更依赖于干预法。

然而，需要注意的是，知识机制分析的结果对所采用的方法、评估指标以及实施细节非常敏感。为了更准确地评估不同解释方法的优劣，研究人员提出了一些量化比较的数据集和方法。

例如，通过实验发现，有监督的方法在某些情况下优于无监督的特征提取方法；在干预法中，对称令牌替换等方法相较于高斯噪声等方法，能更有效地揭示模型的内部机制。

四、LLMs中的知识进化

4.1 个体进化

在LLMs的个体进化过程中，预训练阶段是知识积累的重要时期。在这个阶段，LLMs如同一张白纸，能够较为容易地学习新知识。大量实验表明，在预训练过程中，LLMs可以积累海量的知识。

然而，训练语料中的矛盾信息会随着语义扩散在模型内部传播，导致内部参数知识之间产生冲突。同时，LLMs在记忆知识时存在频率偏好，倾向于优先记住高频和具有挑战性的事实，这使得低频事实的记忆受到抑制，从而影响了知识记忆的全面性和准确性。

在预训练之后的微调阶段，LLMs需要不断更新内部知识以适应快速变化的世界。尽管可以通过持续学习、指令调整和对齐调整等方式来获取新知识，但研究发现LLMs在微调阶段对新知识的学习存在一定的抵触情绪。

例如，指令调整可能更多地是使模型与已有的内部知识进行自我对齐，而非真正学习新的信息。为了缓解信息冲突，研究人员提出了多种技术，如先遗忘旧知识再学习新知识的策略，以及检索增强生成（RAG）技术等。

此外，知识和表示编辑技术也为精确修改模型知识提供了可能，通过这些技术可以有针对性地调整模型对特定知识的存储和表示。

4.2 群体进化

在群体进化中，多个LLMs作为智能体相互协作，共同完成复杂的任务。然而，这一过程中会面临诸多冲突，如不同智能体之间的专业知识差异、利益竞争、文化差异以及道德困境等。

为了达成共识并解决这些冲突，智能体需要通过内部表示明确各自的目标和信念，然后通过各种通信方式，如提示指令、任务和智能体描述、参数信号以及模型表示等，进行知识的讨论、辩论和反思。

尽管群体进化可以通过协作整合更多的知识，从而超越个体智能体的认知水平，但在实际过程中仍存在一些问题。

例如，智能体之间的从众心理可能导致它们盲目相信多数人的错误答案，从而阻碍冲突的有效解决；在面对道德冲突时，群体在自动化道德决策方面存在困难，难以确定道德“正确性”的标准。

4.3 不同进化策略比较

个体和群体在实现动态智能的过程中，主要依赖两种策略：更新内部参数知识和利用外部知识。

更新内部参数知识需要高质量的数据来进行参数调整，从而使模型能够学习到新的知识。然而，这一过程不仅需要解决内部参数之间的冲突，还需要确保模型在更新知识后能够保持参数知识的一致性。

利用外部知识则可以避免高昂的训练成本，但需要解决外部知识本身的冲突以及外部知识与内部知识之间的冲突，同时还需要承担较高的维护和检索成本。

在实际应用中，将这两种策略结合起来，如利用RAG获取低频知识，利用参数化策略处理高频知识，可能是提高模型性能的有效途径。

五、知识机制的应用

5.1 高效LLMs

知识机制的研究为构建更高效的LLMs提供了新的思路和方法。例如，知识（记忆）电路理论为LLMs的知识计算提供了一种分解方式，通过将复杂的知识计算分解为更小、更易于管理的部分，可以指导确定哪些知识类型应该编码到参数中，从而提高知识存储和利用的效率。

Memory3基于这一理论，为Transformer - based LLMs设计了显式记忆机制，通过为不同使用频率的知识设计外部信息、显式记忆和隐式记忆，有效减轻了参数规模的负担，降低了读写成本。

此外，知识机制分析还为模型编辑和模型合并技术提供了理论支持。通过对知识机制的深入理解，可以更精确地对模型进行编辑，将多个任务特定模型合并为一个多任务模型，从而提高模型的通用性和效率。

然而，模型压缩技术在一定程度上会限制编辑和模型合并的效果，因此需要进一步探索更有效的策略来平衡模型压缩与功能扩展之间的关系。

5.2 可信LLMs

随着LLMs在实际应用中的广泛使用，其安全性和可信度问题日益受到关注。研究发现，LLMs存在安全风险，如容易受到越狱攻击，生成有毒内容等。

这些问题的根源在于模型内部参数的某些区域与不安全行为相关，传统的对齐方法（如DPO和SFT）只能暂时绕过这些问题区域，无法从根本上解决安全隐患。

受知识机制分析的启发，研究人员提出了一些构建可信LLMs的策略。在预训练阶段，可以通过设计特定的架构和训练过程，促进模型的模块化、稀疏性和单义性，从而使模型的反向工程过程更加容易，有助于发现和解决潜在的安全问题。

此外，机器遗忘和知识编辑技术也可以用于去除模型学习到的隐私或有毒信息。然而，这些方法存在过拟合、难以区分有价值知识和无用知识等问题，可能会对模型的泛化能力造成损害。

因此，当前的研究重点逐渐转向表示编辑，通过调整模型的内部表示来解决安全相关问题，但这一方法需要针对每个任务进行精细的超参数调整，以提高其效率和效果。

六、讨论

6.1 LLMs学到了什么知识

尽管LLMs在知识处理方面表现出一定的能力，但对于它们是否真正拥有知识，学术界存在诸多争议。一些观点认为，LLMs可能只是通过模仿来生成答案，而非真正理解知识。

从记忆层面来看，LLMs在预测答案时更多地依赖位置信息，而非语义理解，这导致它们在面对相同问题的不同表述时可能给出不同的答案。

在理解与应用方面，LLMs在推理任务中表现不佳，难以将预训练数据中的知识有效应用到实际问题中，并且在处理文本世界模拟和规划任务时也存在困难。

在创造方面，虽然LLMs能够生成新的术语，但其质量与人类创造的内容相比仍有较大差距。

目前主流观点认为，LLMs通过记忆掌握了一定的基本世界知识，但在推理和创造方面存在明显不足。

为了提升LLMs的能力，研究人员正在探索各种方法，如改进模型架构、优化训练过程，以及通过操纵神经元、知识电路或表示来唤醒其推理和规划能力。

如图中所示，这篇文章对于机器掌握的知识进行了分类，按照人类知道的和机器知道的分为了四个象限，例如第一象限，指人类和机器都尚未知晓的知识，而第四象限的知识，则是人类未知但机器通过大量数据探索发现的知识，以及第二象限的以及人类已知但机器难以学习的知识，这些都归于暗知识。

6.2 为何所学知识脆弱

LLMs所学知识的脆弱性在实际应用中表现为多种问题，其中幻觉、知识冲突、推理失败和安全风险最为突出。

幻觉是指LLMs生成的内容与现实事实或输入信息不符，这可能是由于训练数据中的错误信息、解码策略的缺陷以及模型在对齐过程中的问题导致的。

知识冲突则表现为模型内部记忆冲突和上下文 - 记忆冲突，内部记忆冲突会使模型在面对语义等价但句法不同的输入时产生不一致的输出，上下文 - 记忆冲突则是由于外部上下文知识与内部参数知识之间的矛盾引起的。推理失败主要源于数据分布的不合理，导致知识难以提取和应用。

这些问题的根源主要在于学习数据的不当性，包括数据分布不均衡和数据量不足等。数据中的噪声和错误信息会误导模型的学习，而数据量不足则无法让模型学习到全面和准确的知识。此外，模型的训练过程和解码策略也可能加剧这些问题。

6.3 难以学习的 “暗知识” 是否存在

暗知识是指人类和机器都尚未知晓的知识，或者是人类未知但机器通过大量数据探索发现的知识，以及人类已知但机器难以学习的知识。从未来认知的角度来看，暗知识可能长期存在。例如，在基因预测、蛋白质结构解析等领域，机器利用大量数据能够发现一些人类难以察觉的模式和知识，但对于一些复杂的情感、意识等方面的知识，机器由于缺乏相应的感知和理解能力，难以进行学习。

此外，像量子力学中的不确定性、宇宙起源等问题，目前既超出了人类的认知范围，也超出了当前模型的能力边界。对于暗知识的探索，需要人类和机器的协作，未来的研究需要进一步探讨模型架构、训练数据和计算资源在解决暗知识问题中的作用。

6.4 如何从跨学科启发中探索更多知识

为了拓展LLMs的知识边界，研究人员可以从神经科学、认知科学、心理学和教育学等多个学科中获取灵感。神经科学研究大脑的结构和功能，通过观察和干预方法探究知识学习、记忆、决策等过程。LLMs的机制分析可以借鉴神经科学的成果，如发现类似功能的神经元和区域，以及利用可塑性理论解释智能的技术支持。这有助于指导下一代人工智能在知识存储、利用和神经网络框架组织方面的发展。

认知科学专注于研究思维和认知过程，包括语言、感知、记忆、推理等。从认知科学的角度，可以追踪LLMs中的信念、探索社会认知技能，为LLMs的高级认知能力研究提供方向。心理学则通过研究人类的心理现象和行为，为理解LLMs的决策、推理机制提供帮助，如利用心理学实验揭示模型行为背后的机制，指导提示设计和学习策略的优化。

教育学研究知识的传授和学习过程，为LLMs的知识获取提供了有益的参考。例如，将知识获取分为识别、关联和掌握三个阶段，以及处理知识冲突和整合的方法，都可以启发LLMs在知识进化过程中的学习策略和冲突解决机制。

七、未来研究方向

7.1 参数化与非参数化知识

知识存储对比：LLMs以参数化方式存储知识，将知识隐式编码于神经网络权重中，可深度压缩和整合信息，便于模型在不同情境下泛化应用；非参数化知识则通过知识图谱、数据库等方式显式存储，虽便于直接访问，但在复杂推理任务中表现不佳，且检索成本高。

融合挑战与机遇：结合两者优势能推动LLMs发展，如利用外部非参数化知识可解决参数化知识的可解释性、信息更新及安全等问题。然而，两者融合面临检索准确性、上下文长度和资源限制等挑战，当前研究正探索新架构和学习策略，以降低资源需求，提升模型性能。

如图，这是对于不同的知识进化方法的对比

7.2 具身智能

多模态LLMs的发展困境：人类语言学习是与物理世界和他人互动的主动过程，而当前LLMs并非真正智能，在处理多模态信息时，虽在语言任务表现出色，但在复杂推理中，难以有效整合文本与其他模态信息，多模态模型常优先处理语言信息，未充分发挥多模态数据的协同潜力。

自我进化的探索方向：现有语言模型多通过调优学习，需大量训练和高质量数据，较为被动。未来模型应具备自我进化能力，能通过交互自主学习，减少对大规模标注数据的依赖，适应语言和文化的变化。

目前已有研究尝试让模型自我学习或与环境交互学习。

7.3 领域LLMs

特定领域的应用与挑战：通用LLMs的成功推动了生物医学、金融等领域特定LLMs的发展。但领域知识具有独特性，其复杂程度和表示形式多样，如生物医学中的蛋白质结构知识，难以用文本直接表达，这使得LLMs在获取和处理这些知识时面临挑战，目前对领域特定知识机制的研究相对不足。

数据问题与解决思路：领域特定模型存在数据稀疏和多样性问题，数据稀疏源于专业领域的保密性和获取成本，多样性体现在不同领域知识表示差异大。因此，收集高质量数据和有效嵌入领域知识成为领域LLMs发展的关键任务。

今天的论文分享就到这里，如果这些内容对您有所帮助，欢迎点击关注账号。后续将持续输出更多有关AI方向的前沿解读、深度技术分析等优质内容，期待与您共同探索知识边界，敬请关注。