论文翻译 | Knowledge Graph Prompting for Multi-Document Question Answering 多文档问答的知识图谱提示（下）（实验在下篇）

最新推荐文章于 2025-03-03 14:26:51 发布

不帅不是人2333

最新推荐文章于 2025-03-03 14:26:51 发布

阅读量1.2k

点赞数 27

分类专栏： prompt engineering 论文翻译文章标签：知识图谱人工智能自然语言处理 nlp 语言模型 prompt gpt

本文链接：https://blog.csdn.net/m0_49651195/article/details/142532162

版权

prompt engineering 同时被 2 个专栏收录

78 篇文章

订阅专栏

论文翻译

68 篇文章

订阅专栏

4 基于LLM的KG遍历Agent

实现自适应知识图遍历的一个自然解决方案是对候选节点进行排序，即在我们的例子中已经访问过的节点的邻居，从而确定下一步访问哪些节点。最直接的方法是基于启发式的模糊匹配或基于嵌入的相似度排序，这些方法无法捕捉到已遍历路径与下一个要访问的节点之间的内在逻辑关系。相反，我们对一个大型语言模型(LLM)进行微调，以指导知识图遍历到下一个最有希望的段落，从而基于访问的段落接近问题，我们称之为基于LLM的KG遍历代理。

给定一个询问文档内容的问题q，基于LLM的图遍历代理对先前访问过的节点/检索到的段落 $\left \{ s_{k} \right \}_{k=0}^{j}$ 进行推理，然后生成下一个段落 $s_{j+1}$ ，如下所示:

基于LLM的知识图谱遍历代理其中 $\left | \right |_{k=0}^{j}\chi _{k}$ 将之前检索到的段落/访问过的节点的文本信息进行拼接。对于函数 f 的选择，一种方法是可以使用仅编码器模型，如Robertabase（Asai等人2019年；Xiong等人2020年；Yavuz等人2022年），相应地，g 将是另一个编码器模型，其中 ϕ(·) 是测量嵌入相似性的内积。另一种方法是使用编码器-解码器模型，如T5（Brown等人2020年；Touvron等人2023年），相应地，g 将是一个恒等函数，其中 ϕ(·) 测量文本相似性。为了减轻幻觉问题并增强推理能力（Wei等人2022年；Ji等人2023年），我们进一步通过预测基于先前支持事实的下一个支持事实来对 f 进行指令微调（Chung等人2022年），从而将原本编码在它们预训练参数中的常识知识与从指令微调中继承的增强推理能力相结合。
在访问了由等式（1）从候选邻居队列中选择的得分最高的节点后，候选邻居队列通过添加这些新访问节点的邻居来进行更新。我们迭代地应用这个过程，直到达到预设的预算。
接下来，我们在图4中用一个例子来说明上述过程，并在之后呈现算法。

图4：基于LLM的KG遍历代理用于上下文检索。对于关于文档结构的问题（左侧），我们使用LLM来提取结构并检索它们对应的内容（页面内容是属于该页面的段落，而表格内容是markdown格式的文本）。对于关于文档内容的问题，我们将它与当前检索到的上下文拼接，并提示LLM生成回答问题的下一个证据。通过比较候选相邻句子与生成段落之间的相似性，我们确定要遍历的下一个段落节点。相应地，候选邻居会为下一轮遍历更新。

图4展示了基于内容的提问：“当前Simpson's Theme编排的创作者出生在哪一年？”。我们使用TF-IDF搜索来初始化种子段落节点1，内容为：“Alf Heiberg Clausen（生于1941年3月28日）是一位美国电影作曲家。”随后，我们将当前检索到的上下文（节点1）与问题前缀拼接，并提示LLM生成接近问题下一步所需的下一个证据。因为我们通过指令微调增强了LLM的推理能力，它预计能够识别问题和当前检索到的上下文之间的逻辑关联。因此，它可以预测保持逻辑连贯性的后续段落，尽管可能包含事实错误，即：“Alf Clausen（生于1941年4月16日）是一位美国电影和电视配乐作曲家。”为了纠正这个可能的事实错误，我们从候选邻居中选择与LLM生成的段落最匹配的节点，在这种情况下是节点4 “Alf Heiberg Clausen（生于1941年3月28日）是一位美国电影作曲家。”由于这个段落直接来源于文档，它本身就确保了信息的有效性。然后我们提示LLMs，连同检索到的上下文节点1和4来获取答案。
此外，对于询问文档结构的问题，我们提取文档结构名称并在KG中定位它们对应的结构节点。对于表格节点，我们检索其markdown格式的内容，而对于页面节点，我们遍历其一跳邻居，并获取属于该页面的段落。

这里我们提出了用于MD-QA的KGP方法的算法。给定一个问题，我们首先应用LLM来分类问题是在询问文档结构还是内容。如果问题关注文档结构，我们提取结构关键词，如Page或Table，并在KG中检索相应结构节点的内容。如果问题关注文档内容，我们按照算法1的步骤进行。具体来说，我们首先通过TF-IDF搜索初始化种子段落集合 $V^{s}$ 和推理路径队列P。然后对于每个种子段落 $v_{i} \epsilon V^{s}$ ，我们将其相邻的段落节点 $N_{i}$ 添加到候选邻居队列C中（第1-4行）。之后，我们迭代地从P/C中出队最早入队的推理路径/候选邻居 $P_{i}/C_{i}$ ，并使用微调的基于LLM的图遍历代理根据方程(1)对出队的邻居进行排序（第5-7行）。最后，我们从Ci中选择排名前k的段落节点 $V_{i}^{'}$ 作为下一步访问的节点，并相应地更新候选邻居队列和推理路径队列（第8-13行）。上述过程在候选邻居队列变空或检索段落的预设预算K满足时终止。时间和空间复杂性的详细分析见补充部分的8.3节。

5 实验

在本节中，我们对提出的知识图提示方法(KGP)进行了实验验证。特别是，我们回答以下问题:

Q1 -第5.1节:与现有基线相比，KGP执行MD-QA的效果如何?
Q2 - Section 5.2-5.3:构建的KG和基于LLM的图遍历代理的质量如何影响MD-QA性能?由于篇幅限制，我们在附录8.1-8.2中全面介绍了我们的实验设置，包括数据集收集、基线和评估标准。

5.1 MD-QA性能比较

我们在表1中比较了建议的kp - t5和其他基线的MD-QA性能。首先，基线“无/黄金”的表现最差/最好，因为一个没有提供上下文，而另一个提供黄金上下文。所有其他基线都达到了中间的性能，因为检索的上下文只覆盖了部分黄金支持事实。我们提出的方法KGP-T5除黄金基线外均为Top-1。

表1:不同基线的MD-QA性能(%)。最佳和亚军用粗体和下划线标出。无:没有段落，只有问题。黄金:支持事实与问题一起提供。

执行第二的基线MDR通过基于问题和已经检索到的上下文预测下一个支持事实来微调RoBERTabase编码器(Xiong et al 2020)。这种下一段预测借口任务使模型具备了跨不同段落的知识推理能力，从而提高了检索上下文的质量。另一种基于深度学习的检索器DPR的性能比MDR差得多，因为它只通过最大化查询与其支持事实之间的相似性来对编码器进行精细调整，而不考虑它们的顺序顺序，这表明在解决MD-QA时理解不同知识的逻辑顺序的重要性(Xiong et al . 2020)。通过比较MD-QA在不同数据集上的性能，我们发现所有基线在HotpotQA上的表现都比在IIRC上的表现更好。

这是因为HotpotQA中的问题通常比IIRC中的问题更简单。现有的作品(Jiang和Bansal 2019)表明，HotpotQA中的一些问题可以通过快捷键轻松回答，而IIRC中的问题有时需要算术技能来获得数字答案，例如，“温菲尔德失去财产的事件持续了多少年?”，由于LLM的算术能力较差，这给LLM带来了独特的困难(Yuan et al . 2023)。

此外，由于没有任何特别的文件结构设计，现有的基准无法处理PDFTriage中的结构性问题，例如“第1页和第2页有什么不同”或“在表3中，哪个站点的平均流量最高?”幸运的是，通过构建包含结构节点的KG和我们设计的遍历算法检索结构上下文，我们的方法实现了67%的Struct-EM。

5.2 构造图的影响

我们通过改变TF-IDF/KNN-ST/KNN-MDR/TAGME的超参数，构建了不同密度的KGs，并利用KGP-T5研究了其对MD-QA性能和邻居匹配时间的影响。由于基于LLM的图遍历代理从已访问节点的邻居中选择要访问的下一个节点，因此它命中支持事实的机会随着邻居的增加而增加。相反，邻居匹配效率随着候选池(即Eq(1)中的Nj)的增加而降低。如图6所示，我们观察到类似的趋势，即随着KG密度的增加，F1/EM增加并保持稳定，同时选择最有希望访问的邻居的延迟也增加。当两种构建的KG密度相同时，KNN-MDR的性能优于KNN-ST。这是因为KNN-ST中的编码器是在广谱数据集上进行预训练的，而MDR中的编码器是通过预测下一个支持事实的借口任务专门在HotpotQA上进行预训练的。因此，嵌入相似度和相应的邻居关系更好地反映了不同段落之间的逻辑关联，这与图5中KNN-MDR构建的KG比KNN-ST构建的KG更好一致。与KNN-MDR/ST相比，TAGME以增加延迟为代价提供了更好的性能，因为TAGME生成的KG比KNN-ST/MDR生成的KG更密集。

图6:性能/延迟随着KG密度的增加而增加。结果是在HotpotQA上随机抽取的100个问题的平均值。

5.3 图遍历Agent的影响

在这里，我们研究了使用不同的LLM代理遍历由TAGME构建的知识图谱对MD-QA的影响。具体来说，我们在表2中比较了随机选择下一个邻居访问或通过ChatGPT、LLaMA、T5和MDR智能引导的代理。由于随机代理只是盲目地遍历知识图谱，没有LLM的任何指导，它不可避免地收集了不相关的段落，因此在LLM的指导下，其性能比其他代理都要差。这与我们在图5中之前观察到的低精度一致，并进一步证明了使用LLM指导图遍历的必要性。有趣的是，我们发现即使LLaMA-7B的参数数量超过了T5-0.7B，KGP-T5的表现仍然优于LLaMA。我们推测这是因为LLaMA-7B相比于T5-0.7B需要更多的数据来进行微调。

表2：比较不同的基于LLM的KG遍历代理，包括现成的ChatGPT，它配备了少量演示，以及针对TAGME构建的KG进行微调的LLaMA/T5/MDR。

5.4 敏感性分析

在这里，我们执行分支因子的敏感性分析(从候选邻居中选择下一步访问的节点数量)。在图7(a)-(b)中，性能首先随着分支因子的增加而增加，因为从候选邻居中选择的通道节点越多，到达最终答案的推理路径就越多。然而，当我们固定上下文预算以确保公平比较时(即，我们允许为每个问题检索的段落总数在所有基线上是相同的)，性能会随着分支因子的增加而下降，因为初始播种节点的数量减少，导致KG的覆盖范围减少。此外，我们在图7(c)中比较了当构建的KG包含不同数量的文档时KGP的效率。KGP始终比其他基线具有更高的性能，并且比基于嵌入的DPR具有更高的效率。TF-IDF比KGP略快，因为它是一种纯粹基于启发式的方法。

图7:(a)-(b):随着分支因子的增加，性能先增加后降低。结果是2WikiMQA和MuSiQue上100个抽样问题的平均值。(c):性能/效率随着MuSiQue上文件数量的增加而增加/减少。KGP-T5实现比DPR更高的性能/效率。

6 相关工作

问答（QA）旨在以自然语言为用户的问题提供答案（Zhu等人2021；Pandya和Bhatt 2021），大多数QA系统由信息检索（IR）和答案提取（AE）组成（Mao等人2021；Ju等人2022；Liu和Qin 2022）。在IR阶段，系统使用启发式方法（BM25）（Robertson, Zaragoza等人2009）或神经排序方法（DPR）（Karpukhin等人2020）搜索与查询相关的事实段落。在AE阶段，最终答案通常是从相关段落中提取的文本跨度。尽管这个框架已经在开放领域问答（O-QA）（Mao等人2021）和文档级问答（D-QA）（Xu等人2020；Mathew, Karatzas, 和Jawahar 2021）中得到了广泛应用，但之前的工作并没有关注MD-QA，后者需要从多个文档中交替地推理和检索知识。为了解决这个问题，我们构建了知识图谱（KGs）来编码不同文档间段落的逻辑关联，并设计了一个基于LLM的图遍历代理，以交替生成理由并访问最匹配的段落节点。
使用LLMs进行预训练、提示和预测随着LLMs的出现，"预训练、提示、预测"的范式在处理广泛任务方面获得了巨大的流行（Gururangan等人2020；Liu等人2023；Yu等人2023）。这种方法首先通过预训练任务将世界知识编码到大量的参数中（Wu等人2023），然后通过提示函数为下游任务提取相关知识（Yang等人2023）。最近的研究探索了不同的提示策略来增强LLMs的推理能力（Wei等人2022；Jin等人2023）。与此相反，我们的工作提供了一个新的视角，通过将提示公式转化为KG遍历来实现。

7 结论

回答多文档问题需要从不同模态的多个文档中进行知识推理和检索，这对于应用LLMs的“预训练、提示和预测”范式提出了挑战。认识到段落之间的逻辑关联以及文档内的结构关系，我们提出了一个知识图谱提示方法（KGP），以帮助LLMs在MD-QA中。KGP从文档中构建知识图谱，以句子或文档结构为节点，以它们的词汇/语义相似性/结构关系为边。由于构建的知识图谱可能包含不相关的邻居信息，我们进一步设计了一个基于LLM的图遍历代理，它选择性地访问在接近问题过程中最有前途的节点。在未来，我们计划研究LLMs理解图拓扑的能力，并探索微调/提示LLMs以编码隐藏在图中的复杂拓扑信号的可能性。