上期我们分享了《大模型事实性调查》论文解读的前半部分,这一期为大家带来后面的内容,欢迎阅读交流。
四、事实性分析
在前面的第3节中,论文提供了与评估事实性相关的定量统计数据。在本节中,论文将更深入地探讨在大型语言模型中影响事实性的潜在机制。
4.1事实性分析
本小节深入研究了关于llm的事实性的有趣分析,重点关注那些与评估或增强没有直接关联的方面。具体来说,论文探索了llm处理、解释和产生事实内容的机制。接下来的部分将深入研究llm中事实性的不同维度,从知识存储、感知到管理冲突数据的方法。
4.1.1知识存储
语言模型作为知识库,在其参数中存储关于世界的大量信息。然而,这些知识在llm中的组织结构在很大程度上仍然是神秘的。之前的一项研究中引入了一种称为因果追踪的方法来衡量隐藏状态或激活的间接影响。该技术被用来说明事实知识主要存储在此类模型的早期层前馈网络(FFNs)中。类似地,Geva等人也认为,大量的事实信息被编码在FFN层中。他们将FFN的输入概念化为查询,第一层为键,第二层化为值。因此,FFN的中间隐藏维度可以解释为层内内存的数量,中间隐藏状态代表一个包含每个内存激活值的向量。因此,FFN的最终输出可以理解为激活值的加权和。作者进一步证明,价值向量通常封装了人类可解释的概念和知识。此外,Chen等人发现了一个有趣的发现,即语言模型包含表达多语言知识的语言独立神经元,以及通过应用集成梯度方法传递冗余信息的退化神经元。然而,值得注意的是,上述研究主要集中在个别事实的表现上,而对事实知识如何精确组织和互联的全面理解仍然是一个持续的挑战。
4.1.2知识的完整性和感知性
本小节深入探讨了llm的自我感知的有趣领域,他们辨别自己的知识差距的能力,以及他们内部生成的知识和外部检索到的信息之间的平衡。论文深入研究参数化知识和检索知识之间的二分法,探索这些模型给知识密集型任务的前沿带来的前景和挑战。
Knowledge Awareness。一些研究已经调查了大型语言模型的知识感知,特别是评估llm是否能够准确地估计其自身反应的正确性。这些研究大多将llm视为“黑盒”,促使模型报告其置信水平,或计算模型输出的困惑度,作为响应可能性的指标。Gou等人探索了该模型验证和迭代细化其输出的能力,类似于人类与工具之间的交互方式。作者发现,仅仅依赖自校正而没有外部反馈可以导致边际改善,甚至性能下降。还有一项研究实验使用设置增强或不增强外部文档检索,以确定模型是否识别自己的知识边界。他们的研究结果表明,llm对其事实知识边界的感知不准确,而且往往对自己的反应过于自信。llm往往不能充分利用它们所拥有的知识;然而,检索增强可以在一定程度上弥补这个缺点。Yin等人引入了一个名为“自我感知”的数据集,以测试模型是否识别出他们不知道的东西,包括可回答和不可回答的问题。该实验表明,模型确实具有一些识别自身知识差距的能力,但它们仍与人类的水平相差甚远。GPT-4优于其他模型,指令和上下文学习可以增强模型的鉴别能力。Kadavath等人关注基于语言模型校准的LLM自我评估。他们的研究结果显示,“上述这些都没有”的选项降低了精度,较大的模型显示出更好的校准,而RLHF阻碍了模型的校准水平。然而,简单地调整温度参数就可以纠正这个问题。Azaria和Mitchell通过使用模型的内部状态和隐藏层激活来评估由llm生成的语句的真实性。作者利用前馈神经网络,可以利用隐藏的输出状态对模型是否存在误导性进行分类。
Parametric Knowledge vs Retrieved Knowledge。Yu等人探讨了llm的内部知识是否可以取代检索到的关于知识密集型任务的文档。他们要求llm,如DuuultGPT,直接生成给定问题的上下文,而不是从数据库中检索它们。他们发现生成的文档包含的黄金答案比检索到的顶级文档更多。然后,他们将生成的文档和检索到的文档输入到解码器融合模型,用于知识密集型任务,如open-domian QA,并发现生成的文档比检索到的文档更有效,这表明llm包含足够的知识用于知识密集型任务。
相反,这些观察结果在随后的调查中也被提出了质疑。Kandpal等人强调了llm对在训练前看到的相关文档数量的依赖性。他们认为,回答基于事实的问题的成功与在训练前遇到的包含该问题主题的文档数量高度相关。该研究进一步提出了广泛扩展模型的必要性,以实现在训练数据中表示最小的问题的竞争性能。除了这些问题,Sun等人对使用专门设计的Head-to-Tail基准,批判性地评估llm的事实知识库。结果表明,通过目前可用的llm,对事实知识的理解,特别是与 torso-to-tail实体相关的理解,是次优的。
总之,虽然llm在处理知识密集型任务方面显示出了希望,但它们对训练前信息的依赖和事实准确性的局限性仍然是重大障碍。它强调了在该领域的进一步进步的必要性,以及结合补充方法,如检索增强,以加强在llm中对长尾知识的学习的重要性。
4.1.3语境影响和知识冲突。
本小节研究了LLM的固有参数知识和所提供的上下文知识之间的相互作用,探索了模型利用上下文的能力及其在面对冲突信息时的行为。
Contextual Influence on Generation。一些工作探索了模型利用环境的能力,例如,Li等人观察到,更大的模型倾向于依赖于他们的参数知识,即使在面对反事实的环境时。这表明,随着模型规模的增加,它们可能会对自己的内部知识变得更有信心,这可能会避开外部环境。然而,引入不相关的上下文仍然可以影响它们的输出。可控性(依赖于相关情境)和鲁棒性(抵抗不相关情境)之间的平衡是LLM训练中的一个挑战。研究表明,降低环境噪声可以提高可控性,但对鲁棒性的影响仍有待观察。相比之下,Zhou等人提出了提示模板来指导llm实现更忠诚的文本生成。其中,基于意见的提示被证明是最有效的,这表明当llm被询问到意见时,它们更接近于上下文。有趣的是,该研究发现,使用反事实上下文增强了模型的忠诚度,而来自维基百科等平台的原始上下文可能会导致简单性偏见,导致llm在不严重依赖上下文的情况下回答问题。Chen等人对llm有效利用检索信息的能力进行了综合评估。研究表明,检索到的文档可以提高LLM的性能,但这些文档中的噪声会阻碍它。Yue等人研究了llm生成的内容的性质。他们将生成的内容分为可归属的、矛盾的或推断的参考文献。精细的模型和基于指令的llm都难以准确地评估生成的内容和引用之间的对齐,这强调了确保llm生成与所提供的上下文一致的内容的挑战。Shi等人在来自GSM8K的GSM-IC数据集上研究了llm的可分散性。他们发现,所有的提示技术都会对问题定义中的无关信息做出响应。他们识别了影响模型对无关上下文的敏感性的各种无关信息的各种因素。此外,他们还发现,自我一致性提示和将不相关信息合并到范例中可以提高模型的性能,使它们能够学会忽略不相关信息。
Handling Knowledge Conflicts。一系列的研究对llm在面对冲突信息时的行为感兴趣。Longpre等人引入了知识冲突的概念,其中所提供的上下文与模型的学习信息相矛盾。他们的发现表明,这种冲突导致了预测的不确定性的增加,特别是对于领域内的例子。从T5-60M到11B的跨模型的观察表明,较大的模型倾向于默认它们的参数知识。此外,检索质量与依赖内部知识的倾向之间存在反比关系:证据越不相关,模型就越默认其参数知识。在典型的ODQA模型包括FiD和RAG上进行实验,实验结果显示,与RAG模型相比,FiD模型很少采用记忆法(NQ模型低于3.6%)。相反,FiD主要是根据所提供的证据得出其答案。有趣的是,当面对相互冲突的检索段落时,模型往往倾向于依靠他们的参数知识。有的工作还探索了最近的llm的行为,包括ChatGPT和GPT-4。与较小的lm的发现相反,他们发现llm可以对外部证据高度接受,即使它与他们的参数记忆相矛盾,只要外部证据是连贯和令人信服的记忆相矛盾。此外,llm表现出强烈的确认偏差,特别是当呈现与参数记忆一致的证据时。这种偏见对于被广泛接受的知识来说会变得更加明显。在没有提供相关证据的情况下,llm倾向于表达不确定性。然而,当同时提供相关和不相关的证据时,他们表现出过滤不相关信息的能力。Wang等人认为,LLM不应该仅仅依赖于参数信息或非参数信息,而是授予LLM用户做出知情决策的机构。他们引入了一个框架,包括三个任务((1)上下文知识冲突检测;(2) QA-span知识冲突检测;(3)不同答案生成)模拟知识冲突,并评估llm的行为是否与目标一致。
总之,虽然Li等人和Zhou等人研究强调了使llm更了解环境的挑战和潜在的解决方案,但Yue等人和Xie等人强调了llm的固有偏见和局限性。首要的主题是需要一种平衡的方法,即llm有效地利用其内部知识和外部上下文来产生准确和连贯的输出。
4.2造成事实错误的原因
理解这些事实不准确的根本原因对于细化这些模型并确保它们在现实场景中的可靠应用至关重要。在本小节中,论文将深入研究这些错误的多方面起源,并根据模型操作的阶段对它们进行分类:模型级别、检索级别、生成级别和其他其他原因。表1显示了由不同因素引起的事实误差的例子。
4.2.1 模型级原因Model-level Causes。
本小节深入研究了大型语言模型中导致事实错误的内在因素,这些因素源自其固有的知识和能力。
Domain Knowledge Deficit。该模型可能在特定领域缺乏全面的专业知识,从而导致不准确性。每个LLM基于其所训练的数据都有其局限性。如果LLM在训练过程中没有接触到特定领域的全面数据,那么在查询该领域时,它可能会产生不准确或广义的输出。例如,虽然LLM可能擅长回答一般的科学问题,但当被问及利基科学子领域时,它可能会步履蹒跚。
Outdated Information。该模型对旧数据集的依赖可能使它没有感知到最近的发展或变化。llm是在某种程度上已经过时的数据集上进行训练的。这意味着模型将不知道上次训练更新后的任何事件、发现或变化。例如,ChatGPT和GPT-4都在2021.09之前的数据训练,可能没有感知到之后的事件或进展。
Immemorization。该模型并不总是保留其训练语料库中的知识。虽然llm“记忆”数据是一种误解,但它们确实根据训练形成知识表示。然而,他们可能并不总是从他们的训练参数中回忆起具体的、不那么强调的细节,特别是如果这些细节很少或没有通过多个例子得到加强。例如,ChatGPT已经对维基百科进行了预训练,但它仍然无法回答NaturalQuestions和TriviaQA中的一些问题,这是由维基百科构建的。
Forgetting。该模型可能不会保留其训练阶段的知识,也可能在进行进一步的训练时忘记之前的知识。随着模型对新数据进行进一步的微调或训练,就存在“灾难性遗忘”的风险,他们可能会失去他们以前知道的某些知识。这在神经网络训练中是一个众所周知的挑战,当网络接触到新数据时,它会忘记之前学到的信息,这也发生在大型语言模型中。
Reasoning Failure。虽然该模型可能拥有相关的知识,但有时它可能无法有效地通过推理来回答查询。即使LLM拥有回答问题所必需的知识,它也可能无法在逻辑上将点或理性联系起来。例如,输入中的歧义可能会导致llm的理解失败,从而导致推理错误。
4.2.2检索级别原因 Retrieval-level Causes。
检索过程在决定llm响应的准确性方面起着关键作用,特别是在检索增强设置中。在这一水平上,有几个因素可能导致事实错误:
Insufficient Information。如果检索到的数据没有提供足够的上下文或细节,那么LLM可能难以生成事实响应。由于缺乏全面的证据,这可能会导致通用的,甚至是不正确的输出。
Misinformation Not Recognized by LLMs。llm有时可以接受和传播检索到的数据中存在的错误信息。当模型遇到知识冲突时,检索到的信息与预训练的知识相矛盾,或者多个检索到的文档相互矛盾的时,这尤其令人担忧。例如,一项研究观察到,证据越不相关,该模型就越有可能依赖于其内在知识。最近的研究,也表明llm在检索过程中容易受到错误信息的攻击。
Distracting Information。llm可能会被检索数据中不相关或分散注意力的信息所误导。例如ÿ