大模型LLM-缓解幻觉-内在一致性检查综述

最新推荐文章于 2025-05-31 16:51:52 发布

数据分析能量站

最新推荐文章于 2025-05-31 16:51:52 发布

阅读量645

点赞数 7

文章标签：人工智能

本文链接：https://blog.csdn.net/qq_22337877/article/details/145581129

版权

Abstract

大型语言模型现存问题及相关研究背景

存在的问题：大型语言模型（LLMs）在使用过程中，经常会暴露出一些缺陷，比如推理能力不够强，在生成内容时还会出现“幻觉”现象，也就是输出一些不符合事实或者逻辑不通的内容。
已有应对研究：为了解决这些问题，学界开展了很多以“Self-”（自）开头的相关研究，像“自洽性”“自我提升”“自我优化”等。这些研究都有一个共同特点，那就是让大型语言模型能够对自身进行评估，然后根据评估结果来更新自己，以此期望改善模型表现，克服现存的推理不足和“幻觉”等问题。不过，目前在对这些研究进行总结回顾的时候，缺乏一个统一的角度，以往的综述大多只是侧重于对这些研究进行分类整理，没能从更宏观、统一的视角去综合看待它们。

本文采用的视角及提出的理论框架

内在一致性视角：本文选择从“内在一致性”这个角度出发，用它来解释为什么大型语言模型会出现推理不足以及产生“幻觉”的情况。所谓“内在一致性”，具体指的是在大型语言模型当中，基于不同的采样方法，模型在潜在层（可以理解为模型内部对信息进行处理、表征的层面）、解码层（把内部信息转化为输出内容的环节）以及响应层（最终呈现给用户的输出结果层面），这几个层面之间表达上的一致性情况。简单来说，就是模型内部不同阶段输出的内容在逻辑、表达等方面是不是连贯、协调一致的。
自我反馈框架：基于这个视角，文章引入了一个名为“自我反馈”（Self-Feedback）的理论框架，这个框架对于挖掘模型的内在一致性很有帮助。它主要包含两个重要模块，一个是“自我评价”（Self-Evaluation）模块，这个模块的作用是去发现、捕捉模型内部那些体现内在一致性的信号，就好像是给模型做一个“体检”，看看哪里在表达一致性方面存在问题；另一个是“自我更新”（Self-Update）模块，它会利用“自我评价”模块捕捉到的这些信号，采取相应措施，要么去提升模型输出的响应内容质量，让它更合理、更符合逻辑，要么直接对模型自身进行改进优化，使模型整体性能更好。而且这个“自我反馈”框架已经在很多相关研究中被实际运用了。

研究的具体工作及提出的关键观点

系统分类与总结工作：作者按照不同的任务类型以及研究的脉络线索，对应用了“自我反馈”框架的众多研究进行了系统全面的分类整理，这样能让大家更清晰地看到在不同情况下这个框架是如何发挥作用的。同时，还总结归纳了用于评估这些研究效果的相关方法以及对应的评估基准，方便后续进一步衡量研究的成效。
关键问题探讨及观点提出：文章深入思考并探讨了一个很关键的问题，那就是“自我反馈真的有用吗？”此外，还提出了几个比较重要、新颖的观点，比如“内在一致性的沙漏演变”，可能是在描述内在一致性在模型不同阶段或者不同发展过程中的一种变化形态，类似沙漏形状那样有着特定的变化趋势；“一致性（几乎）等同于正确性”假设，意思是说模型如果能保证内在一致性，那么其输出的内容大概率就是正确的，强调了一致性和正确性之间紧密的关联；还有“潜在推理与显性推理的悖论”，这或许是在探讨模型内部潜在的推理过程和最终呈现出来的显性推理结果之间存在的一些矛盾、相悖的情况。
资源开源情况：最后，作者把相关的资源都放在了https://github.com/IAAR-Shanghai/ICSFSurvey这个网址上进行开源，方便其他研究者获取使用，进一步推动相关领域的研究发展。

1 Introduction

大型语言模型（LLMs）在自然语言处理（NLP）方面取得了显著进展，在推理和示例学习方面展现出接近人类的能力[1]。然而，LLMs仍面临挑战，例如生成不一致的回复[2]、在处理分布外问题时表现出不合逻辑的推理[3]，以及在不了解自身能力极限的情况下表现过度自信[4]。

在众多问题中，我们确定了一个基本类别，即内部一致性，它是核心挑战的关键所在。从表面上看，即使像GPT - 4o这样先进的语言模型也经常生成不一致的回复，如图1所示。在中间层面，解码过程中的词元选择受随机采样方法（Top - k、Top - p、束搜索等）影响，也可能导致完全不同的答案。在最深层次，[5, 6, 7]表明在潜在层存在与准确性相关的特定注意力头，这意味着不同的注意力头可能导致不同的答案。为确保模型的内部一致性，出现了一些值得注意的方法，如自一致性（Self - Consistency）[2]、自优化（Self - Refine）[8]和自纠正（Self - Correct）[9]。此外，在不同层面也有典型的研究工作：在回复层面，有思维链（Chain - of - Thought，CoT）[10]；在解码层面，有自评估解码（Self - Evaluation Decoding）[11]；在潜在层面，有推理时间干预（Inference - Time Intervention）[5]。我们将所有这些策略统称为“内部一致性挖掘”。

1.1 Lack Reasoning and Exhibit Hallucination推理能力欠缺与产生幻觉

与内部一致性问题密切相关的是，模型中“推理能力欠缺”和“产生幻觉”的挑战也一直是令人担忧的问题。从谷歌趋势数据（如图2所示）可以明显看出，它们在学术界的关注度显著增加。在本节中，我们将对这两个问题进行比较，并强调从内部一致性的角度审视它们的必要性。

推理能力欠缺与产生幻觉（如表I所示）具有不同的内涵；然而，区分“推理能力欠缺”和“产生幻觉”仍然具有挑战性。在表I所示的真实示例中，很难确切判断“1.11大于1.9”是由于幻觉还是推理能力不足。同样，MMLU[14]是广泛认可的推理评估基准，而TruthfulQA[15]是幻觉评估基准。然而，表I中的两个基准示例，都是以问答形式处理金融主题，这使得更难发现它们之间的本质区别。

此外，一些研究工作将“推理能力欠缺”和“产生幻觉”混为一谈。例如，Zhang等人[16]提出了一种增强推理能力的方法，但在实验中使用了幻觉评估基准TruthfulQA[15]。

因此，需要一个统一的视角来描述这两个密切相关的现象。我们提出“内部一致性挖掘”这一术语，以涵盖旨在“提升推理能力”和“减轻幻觉”的方法。

1.2 Self-Feedback to Promote Internal Consistency 通过自我反馈提升内部一致性

提升内部一致性的常规方法及局限

参数规模扩大的方式：通常来说，要是想增强模型的内部一致性，最直接的办法就是去增加模型的参数规模，也就是让模型变得更大、更复杂，理论上这样能让它处理信息的能力更强，进而提升内部一致性。
局限所在：然而实际情况是，就算是那些目前最厉害、规模最大、功能最强的模型，从图1展示的情况能看出，它们在内部一致性方面还是存在不足的地方。这就意味着，光靠扩大模型规模是不够的，还得去寻找其他办法，把不同规模的语言模型自身的潜力都充分挖掘出来，以此来更好地提升内部一致性。

自我反馈相关策略及示例

总体思路：那有没有有效的办法呢？其实已经有很多尝试了，重点就是在不单纯依赖扩大模型规模的基础上，去提高模型的内部一致性。其中一个很关键的思路就是模仿人类思考的过程，让模型能够像人一样，对自己输出的内容进行评价，看看好不好、对不对，然后再根据评价结果对自己的结构或者输出的回复进行调整更新。
具体示例：
- 自一致性（Self - Consistency）：比如自一致性这个方法，它会先让模型针对某个问题生成好几个不同的答案，这个过程就是模型对自己能给出的回答进行一个“自我审视”，也就是自我评估的环节，看看这些答案之间是不是一致、合理。然后呢，再采用多数投票的策略，从这些答案里选出一个最终的答案作为输出，这个挑选答案并确定最终输出的过程就相当于模型根据前面的评估结果进行了自我更新，通过这样的方式，模型的推理能力就能有所提高。
- 自相矛盾（Self - Contradict）：还有自相矛盾这个方法，它会引导模型去生成各种各样不同的内容，然后检查这些内容里有没有互相矛盾的地方，这同样是模型在对自己生成的东西进行自我评估。要是发现了矛盾，模型就可以自己去把这些矛盾解决掉，这就是自我更新的操作了，通过这样的方式，模型产生幻觉的情况就能减少，输出的内容会更加合理、准确。

自我评估和自我更新的具体操作范围

自我评估的范围：在进行自我评估的时候，可做的不只是看看模型给出的回复内容怎么样，还可以深入去考察模型的对数几率（logits，它和模型预测结果的概率相关）以及潜在状态（模型内部隐藏的、对信息进行处理和表征的状态）这些更深层次的东西，从多个角度全面地对模型自身进行评价。
自我更新的方式：而自我更新的方式也是多种多样的。比如可以对回复进行添加、删除、合并或者让回复循环利用等操作，让回复变得更合理；也可以专门制定一些解码策略，让解码过程朝着保证输出内容一致性的方向去进行；还能想办法激活模型潜在状态里那些和真实性相关的部分，让模型输出的内容更靠谱。
“自我反馈”概念总结：把上面说的自我评估和自我更新这两个环节结合到一起，就叫做“自我反馈”，它是一种很重要的、旨在提升模型内部一致性的综合策略。

1.3 Related Surveys相关综述

相关综述介绍及特点

《大型语言模型自我进化综述》（[19]）：
- 涵盖内容：这篇综述包含了很多和大型语言模型（LLMs）有关的内容，像模型自己生成训练数据以及运用多智能体方法来进行迭代优化方面的文献都有所涉及。而且它覆盖的任务范围很广，指令遵循、代码生成还有规划等不同类型的任务都在其探讨范围内，从内容丰富度来讲是比较全面的。
- 存在不足：不过，正因为它涉及的内容太宽泛了，就导致在阐述大型语言模型自我进化这个核心目标的时候，没办法把重点聚焦得很清晰，让人不太容易一下子抓住关键，搞清楚到底在自我进化方面重点要达成什么、怎么达成等核心要点。

《自动纠正大型语言模型：多样化自动纠正策略综述》（[20]）：
- 核心关注点：它着重关注的是大型语言模型的自我纠正这一点，也就是模型自己去改正自身出现的错误这个行为。并且在阐述过程中做了比较详细的理论分析，还把相关任务划分成了三个主要的领域，分别涉及幻觉问题、不可靠推理以及像有毒、有偏见及有害内容等方面。
- 可改进之处：在这三个划分领域里，最后一个关于有毒、有偏见及有害内容的部分相对来说比较主观，而且如果能把每个任务的定义都再进一步明确清晰些，那么整个综述在条理和让人理解的清晰程度上就会更好一些，有助于读者更准确地把握其中的关键内容。

《大型语言模型何时能真正纠正自身错误？大型语言模型自我纠正的批判性综述》（[21]）：
- 重点及局限：它主要是对模型是否真的能实现自我纠正这件事提出疑问，并且把关注的重点放在了反馈是文本形式，而且部分反馈来源于外部这种特定情况上。但这样相对狭窄的关注范围就使得它得出的结论没办法很全面地反映整个相关领域的情况，毕竟它只聚焦了一部分特定场景，忽略了其他很多相关情况，在全面性上有所欠缺。

本综述的优势对比阐述

内部一致性视角优势：
- 深入全面的考察：我们所做的综述会对大型语言模型的内部一致性进行深入的回顾与分析，从多个角度去研究它，比如内部一致性会有哪些具体的表现现象，怎么用专业的形式去把它表达出来（形式化表示），还有当前大型语言模型在内部一致性方面处于什么样的现状等等，对这些内容都有详细的探讨。
- 统一视角的引入：不仅如此，还引入了“内部一致性挖掘”这样一个任务概念，通过它把提升推理能力和减轻幻觉这两类不同但又相关的任务，放在了一个统一的视角下去看待和分析，让大家能更有条理、更系统地去理解和处理这两个在大型语言模型中很重要的问题。

自我反馈理论框架优势：
- 框架构成及特点：我们构建了一个自我反馈的理论框架，这个框架是由自我评估、一致性信号获取以及自我更新这几个部分组成的。它的特点就是既简洁又全面，简洁意味着容易理解和把握，全面则说明它能涵盖很多关键的方面，这样的特点使得它有很大的潜力去启发后续更多相关的研究工作开展。
- 信号捕捉能力拓展：在这个框架里，我们总结了大量的自我评估策略，这些策略可不仅仅局限于看看模型给出的表面回复怎么样，还进一步延伸到去探索模型内部的潜在状态，从更深层次去考察模型。通过运用这些策略，我们能够捕捉到各种各样的反馈信号，和其他综述相比范围更广，像其他综述大多只是涉及标量、文本以及外部这些类型的信号，而我们还能把对比性信号等纳入其中，能更全面地反映模型的情况，为后续改进提供更多依据。

基于工作脉络分类方法的优势：
- 分类思路差异：其他的综述在对相关方法进行分类的时候，往往只是单纯依据理论框架来划分，比较单一和机械。而我们采取的是一种更贴合实际研究情况的方式，按照工作脉络来对相似的方法进行组织分类，也就是把那些在实际研究工作中有着内在联系、相似工作流程或者目标的方法归为一类。
- 便于学者定位：这样分类之后，我们还会针对每一条工作脉络，分别总结在这个脉络里涉及的自我评估和自我更新策略是什么样的。如此一来，我们总结出来的这些工作脉络和相关研究中提到的一些基准线是能够对应上的，对于学者们来说就很方便了，他们可以快速对照，清楚地知道自己正在做的研究在整个领域里处于什么样的位置，便于更好地参考前人成果以及开展后续研究。

回应关键问题的优势：
- 其他综述的不足：很多综述也会去探讨“自我反馈真的有用吗？”这个在领域内很关键的问题，但是它们在分析的时候往往存在一些问题，有的是比较片面，只是拿某一个特定方法成功或者失败的情况，就想代表整个领域里自我反馈的效果，这显然不太客观全面；还有的则是分析得过于复杂，针对每一种不同类型的工作都给出不一样的答案，让人很难从中提炼出清晰、通用的结论，不利于整体把握情况。
- 本综述的优势：我们借助提出的内部一致性这个视角，在分析这个问题的时候，能够给出更有深度、更能洞察本质的分析内容，让大家对自我反馈在大型语言模型中到底有没有用、有多大作用等情况有更准确、更合理的认识。

1.4 Structure of the Survey 综述结构

综述的出发点与问题分析

出发点：整个研究是围绕大型语言模型（LLMs）存在的内部一致性较低这个现存问题展开的，这个问题是后续一系列探讨的起点，就像搭建房屋的基石一样，后续所有内容都是为了更好地分析和解决它。
具体表现：内部一致性低在实际应用中有很明显的体现，比如在问答（QA）场景里，模型的推理能力不太行，没办法很好地依据问题去分析、推导并给出合理准确的答案；而在像自由文本创作这类自由形式的生成任务中，模型又容易出现“幻觉”现象，也就是输出一些不符合事实或者逻辑不通的内容，这些都是内部一致性低带来的不良后果。
原因剖析：从导致这个问题出现的原因角度来看，有几个方面的因素。一方面是模型潜在推理不足，也就是在模型内部对信息进行处理、推导的这个环节做得不够好；还有就是“幻觉”现象会像滚雪球一样，一旦出现可能会越来越严重，影响整体的一致性；另外，“随机鹦鹉假说”也对其有影响，意思是模型可能只是像鹦鹉学舌一样机械地处理语言，缺乏真正的理解和内在逻辑连贯性，进而导致内部一致性不佳。
形式化定义：为了更科学、准确地去研究这个内部一致性问题，研究者们把它用专业的方式进行了形式化定义，具体来说就是基于采样的方式，去衡量模型在不同层级（比如响应层是最终呈现给用户的内容层面，解码层涉及把内部信息转化为输出的过程，潜在层则是模型内部对信息进行处理和表征的层面）表达上的一致性情况，而且提升内部一致性就得从这几个不同层级的一致性入手去做改进。

解决思路与核心框架介绍

解决思路：为了提高内部一致性，提出了跨这些不同层级进行“内部一致性挖掘”的办法，这相当于一种有针对性的解决策略。原本扩大模型规模看起来是个直接能想到的办法，毕竟模型更大、更复杂可能就能处理得更好，但实际上这样做会面临各种各样和成本相关的难题，像计算资源消耗大、训练成本高等，所以不能单纯依靠这个办法来解决问题。
自我反馈框架：于是重点关注“自我反馈”这个理论框架，它主要包含三个重要部分，分别是自我评估、一致性信号获取以及自我更新。模型先是通过自我评估这个环节，去发现、捕捉自身在不同层面体现出来的各种内部一致性信号，就好像给自己做个体检，看看哪里存在一致性方面的问题。然后拿到这些信号之后，利用它们来对输出的回复内容进行调整优化，或者直接对模型自身的一些参数、结构等进行改进，以此来提升整体的内部一致性。

各部分工作脉络梳理

一致性信号获取工作脉络：在一致性信号获取这个方面，详细探讨了六条工作脉络，也就是六种不同的、可以获取到相关信号的途径或者研究方向，通过这些不同的角度去挖掘模型内部一致性相关的信号。
自我反馈框架应用工作脉络：利用自我反馈框架开展的工作梳理出了七条工作脉络，并且进一步划分成了两大部分。其中有三条工作脉络重点是放在提升模型的推理能力上，通过自我反馈框架里的各个环节操作，想办法让模型在面对各种问题时能更合理、准确地进行推理；另外四条工作脉络则主要是朝着减轻模型“幻觉”现象这个目标去努力的，通过框架内的相关机制来减少模型输出不符合实际情况的内容。

其他补充内容与章节安排

补充研究工作：除了前面图3展示出来的那些核心主题相关的内容之外，在第七章还额外增加了一些利用自我反馈框架开展的研究工作，不过这些工作的目的并不是为了解决内部一致性低这个问题，而是从其他角度应用了这个框架，丰富了整个研究涉及的范围和应用场景。
评估相关内容：在第八章，对相关的评估内容进行了总结，这里面包括元评估（从更基础、本质的角度去衡量一些特性）以及通用评估（针对常见实际任务等方面进行评估）所涉及的基准和方法，有了这些评估的标准和手段，才能更好地判断各种研究工作的成效如何。
关键问题探讨：到了第九章，针对“自我反馈真的有用吗？”这个大家都很关心、在领域内很关键的问题进行了深入探究，详细分析了目前已经存在的一些反驳观点，也就是那些认为自我反馈没效果或者存在问题的看法，然后在分析这些观点的基础上，提出自己的见解和主张，帮助大家更全面、客观地认识自我反馈的实际作用。
未来研究方向展望：最后在第十章，对未来在这个领域里具有挑战性的一些研究方向进行了概括性的描述，给后续的研究者们提供一些参考和启发，让大家知道接下来可以朝着哪些方向去深入探索，推动整个领域继续向前发展。

2 Internal Consistency 内部一致性

内部一致性是我们这项工作中的核心概念。在本节中，我们将对这一概念进行定义，并通过一项实验分析生动地描述三种不同类型的内部一致性。我们会讨论当前语言模型在内部一致性方面的优势与劣势，并分析其潜在原因。最终，我们会对内部一致性给出一个简洁明了的解释。

2.1 Formulation 构建（表述形式）

一致性概念及在语言模型中的情况

一致性在逻辑中的定义：在逻辑学领域，“一致性”是个很重要的概念，简单来说，就是在一个系统里，不会出现两个相互矛盾的陈述。打个比方，如果把一个知识体系看作是一个系统，那这个体系里的各个知识点、论断之间不能互相冲突，得是和谐统一的，这就是逻辑上的一致性要求。
语言模型中的不一致问题：然而，像大型语言模型（LLMs）这样的系统，往往就没办法做到这样的一致性，会出现各种不一致的情况，就像图1展示的那样。这是因为语言模型本身的一些特性和处理机制，导致它在输出等方面容易出现前后矛盾或者不同情况的差异表现。

基于采样的内部一致性定义方法

针对不同层的表达式定义：
- 响应层（文本）：从响应层来看，这里的表达式其实就是模型最终呈现给用户的文本内容，也就是句子组成的部分。但是这些句子可能会不一致，原因在于模型在生成文本时采用了随机采样的方式，或者哪怕输入的查询只是有一点点细微变化，都可能让输出的句子出现差异，达不到逻辑上要求的一致性。
- 解码层（词元）：解码层的表达式涉及词元的选择。在这个阶段，模型会根据不同的解码策略（像束搜索、Top - p采样法这些常见的手段）去决定选择哪些词元来组成最终的文本内容，而不同的解码策略运用，就会使得最终选择的词元不一样，进而造成表达式的不同。
- 潜在层（张量）：潜在层的表达式比较复杂，它包含了模型架构里各个不同注意力头的激活情况，还有模型内部隐藏的潜在状态这些元素。这些因素相互作用、共同影响，会让模型输出各种各样不同的结果，也是导致不一致性出现的一个源头。
表达式分布及采样集的相关定义：
- 表达式分布：对于一个给定的大型语言模型M和一个用户查询x，针对这个查询，模型在不同的表达式类型e（这里的e包含响应层、解码层、潜在层这几种情况）下，会产生相应的表达式分布，用数学符号表示就是O_e(M,x)。这个表达式分布可以理解为模型针对这个查询按照不同的机制和规则，可能输出各种不同表达式的一种概率分布情况。
- 采样集：基于这个表达式分布，我们通过采样的方式从中获取一些样本，这些样本组成了一个采样集Y，里面的元素y_i就是从前面说的表达式分布O_e(M,x)里采样得到的，而且这个采样集里的元素是有可能重复的，毕竟采样是有随机性的。

简单的一致性估计方法及局限

统计角度的负方差估计法：从统计学的角度出发，我们可以用计算负方差的方式来衡量这些表达式的一致性。具体来说，就是按照公式(3)所展示的计算方式，先求样本的期望E(Y)，然后计算每个样本与期望差值的平方的期望，最后取其相反数，得到的结果就是负方差。例如，如图 1 所示，我们可以得到y={4,3,3,3,4}，示例中算出的结果是-0.24，它在一定程度上能反映出采样集里元素的离散程度，也就是一致性情况，数值越小理论上一致性越高。但这种方法有局限性，它对于如何根据这个结果去更好地更新模型、改进输出，可能没办法提供很有效的指导，而且它主要适用于表达式本身是数值标签这种比较简单的任务场景，对于像文本等复杂的、非数值的表达式就不太好直接应用了。

信息论角度的负熵估计法：从信息论的角度来看，还可以用负熵来衡量一致性，也就是公式(4)所展示的计算方式，通过计算采样集中每个元素出现的概率p(y_i)，再根据这个概率按照对数函数等运算来算出负熵的值，像示例中算出的约为-0.971。负熵同样能在一定程度上体现出采样集的混乱程度或者说一致性情况，不过它也和负方差类似，存在适用性有限的问题，对于复杂的语言模型输出情况，很难单纯依靠它来实现有效的结果更新和改进，而且同样主要适用于数值标签的任务场景。

后续一致性信号获取方法讨论及三种一致性类型

后续方法介绍：上面提到的这两种简单的估计方法有诸多不足，不过别担心，后面在第四节会全面地去讨论现有的其他获取一致性信号的方法，那些方法相对来说会更有助于解决实际中对模型内部一致性进行分析和改进的问题。
三种一致性类型：前面所讲的响应层、解码层、潜在层这三种不同类型的表达式，分别对应着本文重点讨论的三种一致性类型，即响应一致性、解码一致性和潜在一致性。这三种一致性从不同层面反映了模型内部的协调统一情况，而图4还会用一种可视化的方式，把这三种类型在大型语言模型整体结构里所处的位置清晰地展示出来，方便大家更直观地理解它们在模型中的具体情况。

2.2 The Hourglass Evolution of Internal Consistency

整体研究背景与目的

这段内容主要围绕探究大型语言模型（文中以Llama3 - 8B - Instruct2为例）内部一致性展开，通过一个简单实验，从不同层面（响应层、解码层、潜在层）去观察模型在回答同一个简单查询时表现出的一致性情况，进而分析其内在的规律和特点，最终希望达成内部一致性挖掘的目标，也就是让表示一致性的边界线尽可能靠近中心，使模型的表现更稳定、更具一致性。

具体实验过程及各层情况

响应层：
- 采样方法：采用了固定温度的Top - p采样法，并且为了让模型能给出更多样化的回答，启用了思维链（CoT）提示，然后进行了五次采样操作。
- 示例与采样集：例如对于查询“‘.!..!..! ’中有多少个句号（句点）”这个问题，模型可能会给出像“让我们逐步思考。第一部分末尾有一个句号，……所以，总共有3个句号。”这样的回答。经过五次采样后，得到的采样集Y_response = {5, 3, 3, 3, 3} ，这意味着五次采样得到的关于句号数量的答案有不同的情况，体现出一定的差异性。
解码层：
- 解码策略运用：这里使用了五种不同的解码策略，分别是贪心解码、束搜索解码、采样解码、Top - k采样解码以及Top - p采样解码，通过这些不同的策略来对模型输出的词元（token，是语言模型处理文本时的基本单位）进行采样观察。
- 采样集结果：最终得到的采样集是Y_{decoding} = {4, 4, 3, 4, 4} ，反映出不同解码策略下获取到的关于句号数量这个答案的情况，同样也存在一定变化。
潜在层：
- 假设与操作方法：研究人员提出一个假设，认为不同的注意力头（在Transformer架构中，注意力头是用于捕捉不同特征的重要组件）会导致不同的答案。基于此假设开展实验，具体做法是在模型 M 的第 l 个Transformer模块里，只让第 h 个注意力头处于激活状态，而把该层其他注意力头的输出都设置为零，接着观察在前向传播过程中哪个词元具有最高概率，并且使用了六种不同的 l 和 n 组合，即 (l, n) in {0, 15, 30} * {0, 16} 来进行全面的测试。
- 采样集呈现：得到的有序采样集是Y_{latent} = ( 0, 0, 5, 4, 4, 4)> 3 ，展示出在潜在层不同设置下模型输出的相关情况，也体现出答案的差异性。

关于“沙漏式演变”模式及分析

整体演变模式：通过上述实验，发现模型的答案一致性呈现出一种“沙漏式演变”模式。形象地说，就好像从潜在层的底部开始，慢慢向上发展，经过中间的解码层这个类似“瓶颈”的阶段，最后到达响应层，整个过程答案的一致性呈现出特定的变化规律。
各阶段具体分析：
- 潜在层：在这个阶段，前向传播还没完成，模型底层的注意力头由于还处在信息处理的相对初期阶段，知识积累等各方面还不完善，所以在选择答案时可能更倾向于随机进行，没有很强的确定性。而顶层的注意力头则不一样，因为有残差连接的存在，它可以不断地汇聚和积累知识，使得对答案的判断慢慢变得更集中、更收敛，也就是答案的一致性在顶层相对底层会更好一些。
- 解码层：在这个中间阶段，不管是采用哪种解码策略，它们都有一个共性，那就是往往会去选择概率比较高的词元来输出。这种选择机制使得在这个阶段输出的结果相对比较确定，维持了较高的一致性，就好像在“沙漏”的中间窄口部分，相对比较稳定。
- 响应层：当模型开始生成完整的文本回答，也就是进入响应阶段时，情况又发生了变化。在一开始生成第一个词元的时候，其实模型已经在内部进行了一定的推理（称为潜在推理），并且对答案有了一个初步的判断。但是随着后续文本的继续生成，像“我很乐意帮忙。”这类看似无关紧要的输出词元可能会干扰到之前的初始推理和初步判断，导致之前在潜在层形成的相对稳定的推理出现崩溃，进而答案又出现了比较大的变异性，一致性再次降低。