知识链=知识图谱+大模型+推理-幻觉

再不会AI就不礼貌了

于 2024-10-06 10:27:22 发布

阅读量347

点赞数 4

文章标签：知识图谱人工智能 prompt langchain 深度学习机器学习

本文链接：https://blog.csdn.net/Everly_/article/details/142724021

版权

最近由华东师大和香港大学联合提出了一种面向大语言模型推理的幻觉缓解方法Chain-of-Knowledge被ACL2024接收

最近这两年，诸如GPT-4、LLaMA3等一系列超百亿规模的大语言模型相继提出，这些大模型以其大规模参数、大规模语料和大规模算力为基础，展现出了极为强大的语义理解和推理生成能力。

为了更好地引导大语言模型完成复杂任务的推理，一些面向大模型提示工程被相继提出，包括Chain-of-Thougt（CoT）、Self-Consistency、Program-of-Thought（PoT）、ReAct等。在这些提示工程的引导下，大模型可以遵循一定的模式完成问题的理解、规划、推理和解答。

不过即便如此，大语言模型在推理过程中依然会存在幻觉，这通常表现在对问题的规划和推理步骤存在事实性错误或逻辑错误。为此，如何能够识别并纠正这些错误对缓解大模型幻觉问题具有重大价值。

例如如上图所示，传统的推理方法是构造若干Input-Output Pair，从而大模型可以遵循这样的模式进行生成；CoT则在此基础上增加了推理路径，实验和理论发现CoT可以很好地提高大模型的推理能力。不过在实际使用中，依然会存在一些错误，这通常是因为大模型对目标问题存在没有掌握的知识，使得其在某个具体的推理步骤上犯错。

为了提高大模型的推理能力，缓解幻觉问题，本文从三个方面进行了改进。

提示工程：Chain-of-Knowledge Prompting

既然CoT存在一定的不足，那么就先从最简单的提示工程出发。回到刚才的图，我们发现大模型在回答问题时，虽然CoT可以在形式上约束大模型要给出推理步骤，但是由于这种推理步骤是以自然语言形态表达，大模型很有可能会生成出错误的中间结果，而自然语言文本模态的中间步骤很难判断其正确与否。

为此，作者尝试增加一项约束，即让大模型给出明确的推理证据三元组（Evidence Triple）。类似于知识图谱中的三元组，每个三元组由Subject、Relation和Object组成，描述一个推理过程则可以用若干个三元组组成，如以下例子：

假设问题：“乔丹为什么被认为是篮球史上最伟大的球员之一？” 传统的CoT方法可能会生成自然语言的推理步骤，但可能会遗漏关键证据或包含错误信息。使用CoK方法，模型会生成如下证据三元组：

（迈克尔·乔丹，获得，6次NBA总冠军）
（迈克尔·乔丹，获得，5次常规赛MVP）
（迈克尔·乔丹，影响了，篮球的全球推广）

通过这种结构化的表达，我们可以发现可以较好地提高推理能力。因为，大模型产生幻觉通常会因为长篇大论的文本解释从而出错，而显式地给出依据则会间接约束大模型不能用模糊的解释来蒙混过关。

幻觉度量

不过，虽然通过CoK提示工程的引导，还是没有办法100%的避免幻觉问题。为此，我们需要找到这些可能错误错误的推理步骤，并尝试纠正他们。

一般地，不论是常识推理还是符号推理，虽然可以通过最终大模型预测的答案来判断其推理过程中间是否可能出错，但是想具体定位到错误的步骤是比较困难的。为此，我们借助CoK提示的结构，尝试将其与外部知识库进行对齐。

给定一个Prompt和大模型给出的CoK推理路径（包括文本模态的推理路径，和结构化的推理路径）。作者提出两个度量方式：

基于忠实性的幻觉度量：忠实性是指大模型生成的结果与其输入的事实一致性，通常应用在文本摘要、机器翻译等场景。对于推理中，则表示当前推理步骤是否与上下文存在关联。先前一些工程采用类似自然语言推断（NLI）的形式来度量忠实性，作者则采用预训练的SimCSE来作为衡量指标。
基于事实性的幻觉度量：大模型出现错误的另一个原因是某个步骤产生了事实错误，换句话说，其给出的某个推理三元组可能是错误的。为此，作者采用TransR等知识表示学习方法来估计每个证据三元组的正确与否，对于错误的三元组，其对应的得分会低于某个阈值，从而可以推断其是错误的。

Rethinking策略

如果对于一个Prompt，大模型生成的推理步骤经过两个幻觉度量之后被认为存在错误，那么就需要对其进行纠正。作者借鉴了目前的RAG思想，尝试通过对外部知识进行检索增强的形式来提高其在某一个错误的推理步骤上的准确性。

但不同于RAG的是，Rethinking算法则是先基于忠实性和事实性度量指标找到错误的推理三元组，其次对这部分三元组检索外部知识库并实现知识增强，最后基于增强的知识以及原先错误的信息提示大模型进行自我反思，并重新规划和思考当前的问题。整个过程不断迭代直到通过幻觉度量。

整个框架的结构如下图所示：

（1）提示工程提示工程中，直接采用CoT编写的提示作为文本模态推理路径。同时也采用Zero-Shot CoT的方法构造一些推理路径。为了得到这些exemplar的结构化证据三元组，作者采用人工标注的方法实现，为了确保证据链的准确性，在标注过程中会参考现有的知识图谱，以保证推理过程是准确无误的。

（2）幻觉度量幻觉度量的得分范围为0-1。0分表示完全错误，1分表示完全正确。这里针对不同的数据集会在验证集上挑选合适的阈值。

（3）再思考算法大模型会接收到幻觉度量的反馈结果，包括具体到每个推理步骤的正确与否信息。对于错误的证据三元组，会对其检索外部知识库里寻找最有可能正确的三元组，并以提示的形式在下一轮大模型回答时作为增强。这里需要强调的是，只针对错误的推理步骤进行知识检索，而不会将正确答案泄漏给大模型。以下为一个直观的例子：

设想模型被问到：“爱因斯坦发明了电灯吗？” 初始回答可能是：