SuperRAG：超越RAG的布局感知图建模-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/146253313

杰夫·杨 , 杜伊-坎赫·武 , 明田年·阮 ; 玄全·阮 , 林·阮 , 鸿·李 Cinnamon AI，越南河内东大区Geleximco大厦10楼，黄草街36号。{jeff.yang, klein, albert, linh}@cinnamon.is<br> 越南兴安技术与教育大学，越南兴安省。tiennm@utehy.edu.vn 澳大利亚迪肯大学。thai.le@deakin.edu.au

摘要

本文介绍了用于多模态RAG的布局感知图建模。与传统RAG方法主要处理平面文本块不同，所提出的方法通过使用图结构考虑多模态之间的关系。为此，基于文档布局解析定义了一个图建模结构。输入文档的结构通过文本块、表格和图表的连接得以保留。这种表示方法允许该方法处理需要来自多模态信息的复杂问题。为了确认图建模的效率，开发了一种灵活的RAG流水线，使用强大的组件。在四个基准测试集上的实验结果证实了布局感知建模对RAG流水线性能提升的贡献。

1 引言

检索增强生成（RAG）（Guu等人，2020；Lewis等人，2020；Borgeaud等人，2022；Izacard等人，2023）是一种新范式，通过为大型语言模型（LLM）提供额外上下文来减少其幻觉现象（Cao等人，2020；Raunak等人，2021；Ji等人，2023），从而帮助提示LLM（Su等人，2021；Chen等人，2024）。由于其在增强LLM能力方面的有效性，这种方法最近引起了相当大的关注（Guu等人，2020；Lewis等人，2020；Su等人，2021；Xiao等人，2021；Borgeaud等人，2022；Izacard等人，2023）。在此领域中，基于图的RAG已经出现，引入了一种新的视角，利用结构化知识进一步提高性能和可解释性（Panda等人，2024；Besta等人，2024；Li等人，2024；Edge等人，2024；Sun等人，2024）。

与非基于图的RAG方法直接将原始数据作为单独的文本块用于下游推理或问答任务不同，基于图的RAG方法可以将输入数据表示为一个考虑文本块之间关系的图（Panda等人，2024；Li等人，2024；Edge等人，2024）。我们认为，尽管大多数基于RAG的流水线在文本模态内表现有效，但在处理多模态输入时面临重大挑战，这可能限制其更广泛的应用和影响。这一挑战主要来自两个原因。首先，输入文档包含多样化的布局、结构和多模态，这些需要在RAG流水线中被捕获。布局信息在帮助LLM理解文档方面起着重要作用。此外，文档包含文本、表格和图表，这些应该被编码到提示中以供LLM推理（Zhao等人，2023）。其次，输入问题可能需要来自不同模态的信息。请考虑以下问题：“请列出创建互联网导航软件教学材料的标准步骤。” 它需要第27页流程图中的信息，以及第28页和第29页的文本信息。

本文介绍了一种新型基于图的RAG方案，解决了实际多模态问答案例中的上述两个挑战。该流水线包括四个步骤：文档解析、数据建模、高级信息检索和推理。文档解析可以处理多种输入类型，使用内部和第三方阅读器。对于数据建模，我们引入了一种新的知识图谱（KG），保留输入文档的布局和结构。这是因为布局和结构对于理解输入文档的意义至关重要，从而增强了信息检索（IR）步骤的性能。形式为KG的数据建模与全文和向量搜索相结合，创建了一个高级IR模块

1 [^0]: 对应作者。

它引入了一种新的布局感知图建模（LAGM）结构，用于表示RAG的输入文档。该结构旨在保留输入文档的布局，并结合全文和向量搜索以提高IR步骤的质量。
它利用最先进的强大技术构建统一的RAG流水线。在公共基准数据集上的实验结果表明，所提出的SuperRAG与其他强RAG基线相比取得了有希望的结果。
它提供了一个系统，用户可以在其中体验所提出的RAG流水线（附录7）。

2 相关工作

RAG RAG是一种新方法，支持LLM填补过时知识（He等人，2022）和幻觉（Cao等人，2020；Raunak等人，2021；Ji等人，2023）的空白。通过从外部知识中检索相关信息，RAG可以帮助LLM生成更准确和可靠的回答（Guu等人，2020；Lewis等人，2020；Borgeaud等人，2022；Izacard等人，2023；Ren等人，2023；Shi等人，2024）。借助RAG，LLM在许多任务中取得了有希望的结果，例如代码生成（Zhou等人，2022）、特定领域的问答（Cui等人，2023；Dahl等人，2024；Pu等人，2024）或开放领域的问答（Izacard和Grave，2021；Trivedi等人，2023；Kim等人，2024；Wang等人，2024；Yu等人，2024）。

基于图的RAG 图结构已被适应用来捕捉概念之间的关系，例如Connected Papers工具，一棵用于长上下文的摘要节点树（Chen等人，2023），或多模态知识图谱（Kannan等人，2020），用于存储文本、图表和源代码。图也被用来以不同方式改进RAG的质量，例如超关系知识图谱（Panda等人，2024）、用于长上下文的基于图的代理（Li

[^0]等人，2024）、用于摘要的知识图谱（Edge等人，2024）或图神经网络（Mavromatis和Karypis，2024）。然而，我们观察到，大多数这些努力都集中在文本模态上。

我们遵循为RAG构建多模态知识图谱的方向（Sun等人，2024；Wang等人，2024）。虽然先前的工作已经探索了用于RAG的分层文档解析，但SuperRAG通过强调结构粒度和文档布局分析有所不同。我们引入了一种现代通用的数据模型，结合目录（ToC）和主节来改进大型文档的检索。这些增强功能保留了文档结构，提高了检索的准确性和效果。我们还分享了使用文档结构进行RAG的想法（Saad-Falcon等人，2023）；然而，我们的方法通过内部阅读器增强了处理各种文档类型的能力，而不仅仅是处理PDF文件的文本结构（如Saad-Falcon等人，2023）。

3 布局感知图建模

布局感知图建模（LAGM）旨在有效地表示输入文档，同时保留其原始布局和结构。此方法的动力来自于增强属性图的可理解性和管理性的需求，特别是对于涉及多模态和复杂数据的应用。例如，如果查询要求表或图表中的信息，RAG流水线需要知道它属于哪个部分或子部分。

3.1 文档布局解析

构建LAGM的第一步是使用专门的阅读器解析不同模态的输入文档，包括文本、表格、图表和图像。此步骤输出一种结构化格式，为图创建奠定了基础。我们利用内部文档解析器并结合Azure DI的增强功能，确保跨多样化布局的稳健处理。

内部文档解析器我们的内部解析器设计为模块化管道，独立处理每一页（图1）。它从格式转换和预处理的加载层开始，接着是用于提取布局、表格结构、OCR和图表内容的人工智能模型。处理后的数据经过后处理，例如阅读顺序排序和关系提取，并以JSON/Markdown格式输出。

内部解析器的关键组件包括文档布局分析（DLA）、阅读顺序检测、表格结构识别和图表分类。DLA模块在DocLayNet（Pfitzmann等人的研究）上进行了预训练，并使用5773个内部注释的PDF页面进一步微调，使模型能够识别标题、表格和图表等9种不同的布局标签。

图1：内部解析器的管道。对于阅读顺序检测，解析器采用了Wang等人（2021）提出的方法，利用5010个注释的文档图像提取自然阅读序列。表格结构识别使用内部库实现，准确识别各种表格格式。最后，图表和表格分类依赖于策划的数据集，将表格分为子类型（例如全线条、无边框）并将图表分为特定类型（例如图表、示意图），确保视觉元素的精确提取。表1报告

表1：文档阅读性能。

方法	NID	TEDS	TEDS-S
Amazon Textract	96.71	88.05	90.79
LlamaParse		74.57	76.34
Unstructured	91.18	65.56	70.00
Google Layout Parser	90.86	66.13	71.58
Azure DI	87.69	87.19	89.75
我们的读者DI	92.43

内部阅读器与其他强阅读方法的比较。NID代表布局和顺序阅读的标准化插入删除距离。TEDS是基于树编辑距离相似性的文本和表格结构识别。TEDS-S是仅用于表格结构识别的基于树编辑距离相似性结构。我们可以观察到，内部阅读器取得了具有竞争力的结果，这对于实施实际的RAG管道是很好的。

使用Azure DI增强PDF解析

Azure DI通过在章节标题和段落检测方面表现出色，增强了解析器的功能。它支持可搜索和不可搜索的PDF，并有助于创建目录（ToC）。为了生成ToC，我们使用Azure DI输出的表格、章节和图表执行以下操作：(1) 匹配物理页码和印刷页码。(2) 根据关键词检测ToC。(3) 将印刷页码替换为物理页码。这种集成确保了优越的布局感知图建模，并改善了用于结构化导航的ToC生成。

3.2 数据建模

解析后，每个文档页面可以分解为标题、页眉、章节、文本块、表格和图表等。数据建模步骤旨在为属性图创建粒度级别的设计。图2显示了LAGM的定义。

图2：用于数据建模的知识图。公司节点作为根节点，表示总体实体或语料库，例如一家公司，并捕获公司的名称等元数据。每个文档节点链接到公司，代表单个文档，具有文档名称、类型和路径等属性。

文档连接到页面节点，页面节点代表各个页面，并包括页面索引、页眉、页脚和文本内容等属性。目录节点也链接到文档，提供文档的结构概述，并连接到主章节节点。主章节按层次组织内容，并链接到章节、表格和图表节点。

章节节点代表文档中的逻辑划分，并包括章节标题和内容等属性。章节通过“has_next”关系依次连接，确保内容的流动。它们还可以链接到更细粒度的SectionChunk节点，捕获章节下的文本。表格节点表示表格数据，图表节点表示视觉元素，提供额外的结构。表格可能进一步连接TableChunk节点，用于存储表格内的文本内容。这些明确的“is_under”和“has_next”关系反映了文档的自然层次和流动。这种设计支持布局感知图建模和高效的信息检索，通过启用精确的导航和知识提取来增强像RAG管道这样的应用。

3.3 SuperRAG框架

基于布局感知图建模（LAGM），我们介绍了一种先进的检索扩展框架，结合基于大型语言模型（LLM）和启发式驱动的方法，实现了灵活高效的检索。该框架通过提高应用程序的适应性和可扩展性，增强了基于RAG的管道。

基于LLM的图遍历。这种方法利用大型语言模型（LLM）进行上下文感知的图遍历。使用图模式（如图2所示）作为输入，LLM动态生成Cypher查询，实现智能和关系驱动的检索。它特别适用于复杂的多模态数据和在图中编码的复杂文档结构。关于LLM的提示详细信息在附录末尾提及。

基于启发式的检索。补充基于LLM的方法，该框架将目录、表格和图表作为启发式方法用于信息检索（IR）增强。对于目录，框架使用结构化输出从LLM和提示工程（如图4所示）以及启发式方法提取目录进行索引。这是因为在索引过程中，目录包含重要的结构化信息。在检索过程中，它计算章节标题和查询之间的语义相似度得分，以进行有针对性的内容检索。此外，使用少量示例提示让LLM根据给定查询直接提取相关页面。对于表格处理，使用DETR模型（Carion等人，2020）进行表格检测和识别，然后使用OCR引擎重建表格结构，以便在SuperRAG管道中准确捕获和检索表格。对于图表处理，使用OCR模型从图表中提取文本，并将图像和文本信息输入多模态LLM（如GPT-4o）以更好地解释。这允许上下文感知地理解视觉元素，确保图表在检索和推理中的更好整合。这些方法在处理结构化内容时计算效率高、效果好且稳健。

比较见解。双重框架平衡了灵活性和效率，基于LLM的遍历在非结构化、探索性任务中表现出色，而启发式方法为高吞吐量系统提供了可预测的性能。它们共同启用了可扩展和自适应的RAG管道，利用图结构进行最佳检索。

3.4 图增强

为了丰富LAGM，我们采用 -Nearest Neighbors (KNN)（Cover和Hart，1967）作为一种图增强技术，在图内节点之间创建新的 is_similar 关系。KNN算法根据节点的属性计算相似性，使用诸如余弦相似性、Jaccard相似性或欧几里得距离等度量，具体取决于数据类型。此外，has_stem关系通过同义词或共享相同词干的词生成，链接表示概念相关术语的节点。

4 应用

图3展示了LAGM的管道，该管道集成了多个检索器和重新排名器，结合启发式图遍历、相似性搜索和基于语言模型的技术，实现高效检索和排名。该管道在几个方面具有灵活性。首先，它使用图表示合并跨页上下文。其次，包括一个TOC检索器，用于具有结构化信息的文档，提高特定查询的上下文质量。此外，该管道使用图表扩展来处理需要从表格和图表获取信息的查询，并通过自我反思层来

图3：所提出的SuperRAG框架。评估查询意图是否需要表格或图表信息。它选择性地仅在有助于更准确答案时集成这些元素，减少无关内容的检索。值得注意的是，LAGM是流水线无关的，可以集成到任何RAG流水线中。

5 实验设置

5.1 数据集

我们检查了以下数据集进行评估。 DOCBENCH 是一个基准，用于评估基于LLM的文档阅读系统（Zou等人，2024）。它包含来自五个领域（学术、金融、政府、法律和新闻）的1,102个问题和229个PDF文档，平均每个文档66页和46,377个标记。

SPIQA 包括三个任务中的27,000篇研究论文：带图表和表格的直接问答、带完整论文的直接问答和CoT问答。评估包括test-A（666个过滤后的问题）、test-B（QASA的228个人类编写的问题）和test-C（QASPER的493个问题），所有这些都强调图表和表格中的推理。

5.2 详细实现

Milvus 用作矢量数据库。ElasticSearch 用于全文搜索。Neo4J 实现为图形数据库。嵌入模型使用 Open AI 的 embedding-v3-large。完成使用的 LLM 是 GPT-4o，版本为2024-05-01。超参数包括选择前3个表格和图表、前20个相关上下文和前10个重新排名。

5.3 评估指标

所有模型均使用基于GPT-4的评估者进行评估，该评估者已显示出与人类标注者的98%一致，确保了强大可靠的准确性测量（Zou等人，2024）。

6 结果与讨论

本节首先报告SuperRAG与其他强RAG方法的性能比较，然后展示消融研究和输出观察。最后描述了演示系统。

6.1 RAG任务的性能

布局感知 vs. 非布局感知第一次比较包括两种设置：布局感知和非布局感知。布局感知方法利用文档结构——如标题、表格、图表和章节——提供上下文线索，这对于准确理解和检索跨不同领域的信息往往至关重要。相比之下，非布局感知模型仅使用混合搜索进行信息检索，采用扁平结构。

表2和表3的第一部分表明，布局感知建模显著提升了各领域和任务的性能。在DOCBENCH上，布局感知模型的平均准确率为75.8%，比非布局模型的68.5%高出7.3个百分点。值得注意的是，在学术和金融领域，分别获得了11.9和9.8个百分点的提升，显示了复杂文档中结构线索的价值。在表3的SPIQA中，布局感知模型将Test-A的准确率提高了4.5个百分点（59.% vs. 55.4%），Test-B提高了1.3个百分点（63.1% vs. 61.8%）。在具有挑战性的Test-C中，它平均准确率提高了9个百分点（57.2% vs. 48.2%），在表格处理方面有了显著的改进。这些结果确认了布局感知是提高上下文理解和检索准确性的关键因素。

表2：在DOCBENCH上的比较。

系统	学术	金融	政府	法律	新闻	文本	多模	元数据	不确定	平均准确率
布局感知 vs. 非布局感知数据建模
非布局	64.0	70.1	64.2	62.8	83.7	77.7	74.4	46.1	70.2	68.5
布局感知	75.9	79.9	71.6	65.4	83.7	84.7	85.1	50.4	75.8	75.8
布局感知 vs. 最先进RAG方法
GPT4 (API)	65.7	65.3	75.7	69.6	79.6	87.9	74.7	50.8	37.1	69.8
GPT-4o (API)	56.4	56.3	73.0	65.5	75.0	85.0	62.7	50.4	17.7	63.1
KimiChat (Web)	62.4	61.8	77.0	78.5	87.2	87.6	65.3	50.4	71.8	70.9
Claude 3 Opus (Web)	73.9	40.6	70.3	79.1	86.6	80.8	64.6	54.3	58.9	67.6
SuperRAG (Ours)	75.9	79.9	71.6	65.4	83.7	84.7	85.1	50.4	75.8	75.8

这些结果显示布局感知是提高情境理解和检索准确性的关键因素。

表3：在SPIQA Test-B和Test-C上的布局感知与非布局感知比较。ColPali用于Qwen 2B、7B、Claude和GPT-o4。

系统	图形	表格	平均准确率
	Test-A
非布局	53.9	57.2	55.4
布局感知	57.4	63.7	59.9
	Test-B
非布局	62.4	61.0	61.8
布局感知	66.1	58.9	63.1
	Test-C
非布局	57.5	44.6	48.2
布局感知	58.2	56.7	57.2

与最先进方法的比较提出的数据建模方法与最先进RAG方法进行了对比。在DOCBENCH上，我们将我们的方法与最先进基于LLM的文档阅读系统进行了比较，包括专有的GPT-4、KimiChat和Claude-3管道。对于SPIQA，由于基准结果仅衡量使用完整黄金上下文而不包括RAG系统IR组件的基本问答性能，因此直接比较将是不公平的。为解决这一问题，我们重新运行了几种强大的基线，使用完整的IR管道而不是依赖原始论文中的报告数字。此外，我们评估了ColPali（Faysse等人，2024），这是一种开源检索模型，从文档页面图像生成上下文化嵌入，与我们的布局聚焦方法进行对比。

如表2第二部分和表4所示，我们的方法SuperRAG在DOCBENCH和SPIQA基准上始终优于其他系统。在DOCBENCH上，SuperRAG实现了最高的整体准确率（75.8%），尤其是在金融和多类型问题上表现出色。相比之下，专有系统如GPT-4和KimiChat在特定类别中表现强劲，但整体准确率至少比我们的方法低6%。值得注意的是，SuperRAG处理广泛问题类型的能力，尤其是复杂的多类型和单一类型问题，突显了其卓越的文档理解能力。

表4：在SPIQA Test-B和Test-C上的表现。ColPali用于Qwen 2B、7B、Claude-3.5 Sonnet。

系统	图形 Test-A	表格	平均准确率
GPT-4o (API)	51.6	54.2	52.7
Qwen 2-7B	48.3	40.5	45.9
Claude-3.5 Sonnet		56.8	57.6
SuperRAG (Ours)	57.4
	Test-B
GPT-4o (API)	63.1	53.6	59.2
Qwen 2-7B	41.3	45.2	42.9
Claude-3.5 Sonnet	53.3	44.2	49.5
SuperRAG (Ours)
	Test-C
GPT-4o (API)	43.1	40.9	41.5
Qwen 2-7B	40.2	28.5	31.8
Claude-3.5 Sonnet	46.0	42.3	43.4
SuperRAG (Ours)

对于SPIQA，SuperRAG在所有三个测试集中表现出色，尤其在基于图表和表格的问答任务中表现出色。在Test-A中，它实现了最高的平均准确率（59.9%），在基于表格的问题上达到了显著的63.5%，比最佳基线高出7%。对于Test-B，SuperRAG再次领先，平均准确率达到63.2%，超过了最强的基线Claude3.5 Sonet（49.5%）。它在基于图表的任务中达到66.2%，在基于表格的任务中达到58.9%，展示了在不同模态间的均衡优势。在Test-C中，SuperRAG总体准确率达到57.2%，在图表（58.2%）和表格（56.7%）方面表现出色。相比之下，亚军Claude-3.5 Sonnet仅为46.0%，差距达12.2%。这些结果突显了SuperRAG即使与企业系统竞争时也能有效处理多模态输入的能力。

6.2 消融研究

我们通过三种设置的测试来研究流水线的灵活性。第一种设置是非布局方法，使用混合搜索+跨页上下文合并（1）。第二种设置是布局感知方法，使用混合搜索+跨页上下文合并+目录集成+表格图表扩展（2）。目录集成是从文档中提取目录。表格图表扩展通过与输入查询相关的表格和图表扩展上下文。最后一种设置也是我们提出的布局感知方法，类似于第二种设置，但使用自我反思（3）。自我反思意味着流水线根据输入查询决定是否使用表格和图表扩展中的信息。

表5展示了各种设置下的准确率结果。我们的方法配备了所有功能，始终实现最高准确率，突显了每个组件在提升整体系统性能方面的有效性。

表5：组件贡献。DOC：DOCBENCH。

设置	DOC	Test-A	Test-B	Test-C
1	68.5	55.4	61.8	48.2
2	71.7	53.0	60.9	53.1
3

6.3 输出观察

观察RAG流水线的行为以显示其在原始样本上的表现。为此，观察使用了三种方法：非布局、布局感知和ColPali（使用Sonnet）。表6和表7显示了三个流水线的输出。对于表6中的第一个样本，非布局感知流水线无法输出正确答案。这是因为它无法检索到正确的相关上下文以进行RAG。ColPali方法给出了不确定的答案，因为从Colpali（topk=1或topk=3）检索到的页面图像排名不包含足够的信息，而且VLM在图像上的推理能力仍存在一些劣势。布局感知给出了正确答案（从第2页的图像 - 第3页参考文献2中检索信息以及第3页和其他页面的文本内容）。这显示了所提出的布局感知方法在检索相关上下文方面的效率。对于表7中的第二个样本，布局和非布局模型都基于基准表进行准确性数据，无法检索到图d中的测试错误信息。ColPali方法无法检索到包含图d的页面（前1或前3）。因此，它无法输出正确答案。在这种情况下，所有RAG流水线都无法检索到图d。建议应改进文档中视觉组件的检索。

6.4 演示系统

图5提供了一个界面，用户可以在其中体验系统。右侧面板包括上传文件、IR类型和其他设置的选项。中央面板由一个文本框组成，用于输入查询。在输入查询后，系统基于布局感知图建模检索相关上下文并响应最终答案。右侧面板提供答案的证据，其中包括置信度分数和相关片段。相关信息在相关片段中突出显示。开源版本可在https://github.com/Cinnamon/kotaemon找到。

7 结论

本文介绍了用于RAG的多模态数据构造的布局感知图建模。该建模考虑了输入文档的结构，以构建包含文本块、表格和图表之间关系的图。还开发了一个RAG流水线以确认建模的有效性。在四个公共测试集上的实验结果表明了两个重要点。首先，布局感知建模对于提高RAG的性能有益，相较于非布局感知和其他强RAG流水线。其次，设计的RAG流水线具有灵活性，添加更多复杂的RAG相关组件可以提高系统的性能。该建模和RAG流水线在商业场景中是实用的。 ## 局限性

首先，我们的方法高度依赖于准确的文档布局解析和高质量的数据建模。如果这些组件未对齐或文档结构提取工具有限，流水线的有效性可能会降低。特别是，不同领域中的嘈杂布局或文档结构变化可能会影响信息检索（IR）的质量，进而影响流水线的推理性能。此外，将表格、图表和非文本元素整合到连贯的图结构中可能会增加计算开销，使流水线资源密集。这可能会影响可扩展性，特别是在需要高吞吐量或计算资源有限的实际应用中。

伦理声明

我们的框架没有重大的伦理问题，因为它旨在真正提高基于LLM系统的检索准确性。我们的方法不会独立生成或更改内容，而是从现有文档中组织多模态信息，确保输出忠实于源材料。通过遵循数据保护法规并在必要时实施严格的匿名化协议，特别是对于敏感数据，隐私风险被最小化。

参考文献

Maciej Besta, Ales Kubicek, Roman Niggli, Robert Gerstenberger, Lucas Weitzendorf, Mingyuan Chi, Patrick Iff, Joanna Gajda, Piotr Nyczyk, Jürgen Müller, et al. 2024. Multi-head rag: Solving multi-aspect problems with llms. arXiv preprint arXiv:2406.05085.

Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George Bm Van Den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, et al. 2022. Improving language models by retrieving from trillions of tokens. In International conference on machine learning, pages 2206-2240. PMLR.

Meng Cao, Yue Dong, Jiapeng Wu, and Jackie Chi Kit Cheung. 2020. Factual error correction for abstractive summarization models. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 6251-6258.

Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. 2020. End-to-end object detection with transformers. In European conference on computer vision, pages 213-229. Springer.

Howard Chen, Ramakanth Pasunuru, Jason Weston, and Asli Celikyilmaz. 2023. Walking down the memory maze: Beyond context limit through interactive reading. arXiv preprint arXiv:2310.05029.

Jiawei Chen, Hongyu Lin, Xianpei Han, and Le Sun. 2024. Benchmarking large language models in retrieval-augmented generation. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 38, pages 17754-17762.

Thomas Cover and Peter Hart. 1967. Nearest neighbor pattern classification. IEEE transactions on information theory, 13(1):21-27.

Jiaxi Cui, Zongjian Li, Yang Yan, Bohua Chen, and Li Yuan. 2023. Chatlaw: Open-source legal large language model with integrated external knowledge bases. arXiv preprint arXiv:2306.16092.

Matthew Dahl, Varun Magesh, Mirac Suzgun, and Daniel E Ho. 2024. Large legal fictions: Profiling legal hallucinations in large language models. Journal of Legal Analysis, 16(1):64-93.

Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, and Jonathan Larson. 2024. From local to global: A graph rag approach to query-focused summarization. arXiv preprint arXiv:2404.16130.

Manuel Faysse, Hugues Sibille, Tony Wu, Gautier Viaud, Céline Hudelot, and Pierre Colombo. 2024. Colpali: Efficient document retrieval with vision language models. arXiv preprint arXiv:2407.01449.

Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, and Mingwei Chang. 2020. Retrieval augmented language model pre-training. In International conference on machine learning, pages 3929-3938. PMLR.

Hangfeng He, Hongming Zhang, and Dan Roth. 2022. Rethinking with retrieval: Faithful large language model inference. arXiv preprint arXiv:2301.00303.

Gautier Izacard 和 Édouard Grave. 2021. 利用生成模型的段落检索进行开放领域问题回答. 在第16届欧洲计算语言学协会会议：主要卷，第874-880页.

Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, Timo Schick, Jane Dwivedi-Yu, Armand Joulin, Sebastian Riedel, 和 Edouard Grave. 2023. Atlas: 使用检索增强语言模型的少量样本学习. 机器学习研究杂志, 24(251):1-43.

Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Ye Jin Bang, Andrea Madotto, 和 Pascale Fung. 2023. 自然语言生成中的幻觉调查. ACM 计算机调查, 55(12):1-38.

Amar Viswanathan Kannan, Dmitriy Fradkin, Ioannis Akrotirianakis, Tugba Kulahcioglu, Arquimedes Canedo, Aditi Roy, Shih-Yuan Yu, Malawade Arnav, 和 Mohammad Abdullah Al Faruque. 2020. 深度学习论文和代码的多模态知识图谱. 在第29届ACM国际信息与知识管理会议论文集，第3417-3420页.

Jaehyung Kim, Jaehyun Nam, Sangwoo Mo, Jongjin Park, Sang-Woo Lee, Minjoon Seo, Jung-Woo Ha, 和 Jinwoo Shin. 2024. Sure: 使用答案候选总结检索以实现LLM开放域问答. arXiv预印本 arXiv:2404.13081.

Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, 等. 2020. 检索增强生成用于知识密集型NLP任务. 神经信息处理系统进展, 33:9459-9474.

Shilong Li, Yancheng He, Hangyu Guo, Xingyuan Bu, Ge Bai, Jie Liu, Jiaheng Liu, Xingwei Qu, Yangguang Li, Wanli Ouyang, 等. 2024. Graphreader: 构建基于图的代理以增强大型语言模型的长上下文能力. arXiv预印本 arXiv:2406.14550.

Costas Mavromatis 和 George Karypis. 2024. Gnnrag: 图神经检索用于大型语言模型推理. arXiv预印本 arXiv:2405.20139.

Pranoy Panda, Ankush Agarwal, Chaitanya Devaguptapu, Manohar Kaul, 等. 2024. Holmes: 使用LLM进行多跳问答的超关系知识图谱. arXiv预印本 arXiv:2406.06027.

B Pfitzmann, C Auer, M Dolfi, AS Nassar, 和 PWJ Staar. Doclaynet: 用于文档布局分析的大规模人工标注数据集 (2022). URL: https://arxiv. org/abs/2206, 1062.

Hongxu Pu, Xincong Yang, Jing Li, 和 Runhao Guo. 2024. Autorepo: 多模态LLM基础自动化建设报告的一般框架. 专家系统及其应用, 第124601页.

Vikas Raunak, Arul Menezes, 和 Marcin Junczys-Dowmunt. 2021. 神经机器翻译中幻觉的好奇案例. 在2021年北美计算语言学协会会议：人类语言技术分会论文集，第1172-1183页.

Ruiyang Ren, Yuhao Wang, Yingqi Qu, Wayne Xin Zhao, Jing Liu, Hao Tian, Hua Wu, Ji-Rong Wen, 和 Haifeng Wang. 2023. 通过检索增强调查大型语言模型的事实知识边界. arXiv预印本 arXiv:2307.11019.

Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, David Seunghyun Yoon, Ryan A Rossi, 和 Franck

Dernoncourt. 2023. PDFtriage: 长篇结构化文档的问题回答. arXiv预印本 arXiv:2309.08872.

Weijia Shi, Sewon Min, Michihiro Yasunaga, Minjoon Seo, Richard James, Mike Lewis, Luke Zettlemoyer, 和 Wen-tau Yih. 2024. Replug: 检索增强的黑盒语言模型. 在2024年北美计算语言学协会会议论文集：人类语言技术（第一卷：长论文），第8364-8377页.

Yixuan Su, Yan Wang, Deng Cai, Simon Baker, Anna Korhonen, 和 Nigel Collier. 2021. 原型到风格：具有检索记忆风格感知编辑的对话生成. IEEE/ACM音频、语音和语言处理事务, 29:2152-2161.

Qiang Sun, Yuanyi Luo, Wenxiao Zhang, Sirui Li, Jichunyang Li, Kai Niu, Xiangrui Kong, 和 Wei Liu. 2024. Docs2kg: 辅助大型语言模型从异构文档构建统一的知识图谱. arXiv预印本 arXiv:2406.02962.

Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, 和 Ashish Sabharwal. 2023. 将检索与链式推理交织用于知识密集型多步问题. 在第61届计算语言学年会论文集（第一卷：长论文），第页.

Yu Wang, Nedim Lipka, Ryan A Rossi, Alexa Siu, Ruiyi Zhang, 和 Tyler Derr. 2024. 知识图谱提示用于多文档问答. 在AAAI人工智能会议论文集，第38卷，第19206-19214页.

Zilong Wang, Yiheng Xu, Lei Cui, Jingbo Shang, 和 Furu Wei. 2021. Layoutreader: 用于阅读顺序检测的文本和布局预训练. 在2021年经验方法自然语言处理会议论文集，第4735-4744页.

Fei Xiao, Liang Pang, Yanyan Lan, Yan Wang, Huawei Shen, 和 Xueqi Cheng. 2021. 无监督文本风格迁移的转导学习. 在2021年经验方法自然语言处理会议论文集，第2510-2521页.

Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, 等. 2024. Visrag: 多模态文档的基于视觉的检索增强生成. arXiv预印本 arXiv:2410.10594.

Ruochen Zhao, Hailin Chen, Weishi Wang, Fangkai Jiao, Xuan Long Do, Chengwei Qin, Bosheng Ding, Xiaobao Guo, Minzhi Li, Xingxuan Li, 等. 2023. 增强生成的多模态信息检索：综述. 在计算语言学协会发现：EMNLP 2023，第页. Shuyan Zhou, Uri Alon, Frank F Xu, Zhiruo Wang, Zhengbao Jiang, 和 Graham Neubig. 2022. Docprompting: 通过检索文档生成代码. arXiv预印本 arXiv:2207.05987.

Anni Zou, Wenhao Yu, Hongming Zhang, Kaixin Ma, Deng Cai, Zhuosheng Zhang, Hai Zhao, 和 Dong Yu. 2024. Docbench: 评估基于LLM的文档阅读系统的基准.

附录

基于LLM的图遍历提示示例见图4。

DEFAULT_TABLEOFCONTENTS_TEMPLATE = ( "假设
你在读一本书。你有一个查询
并需要在目录中找到相关的行。\n" "只返回
相应的行，不作任何解释。\n" "逐步思考并在
最后一步返回答案。\n"
"### 目录\n"
"{table_of_content_exp}" "\n### 查询\n"
"{query_exp}" "\n###答案" "{answer_exp}"
"\n\n\n### 目录\n"
"{table_of_contents}" "\n### 查询\n"
"{query}" "\n###答案" }

图4：所提出的SuperRAG框架。附录末尾（7）包含了一个用于生成Cypher图查询的LLM提示示例。

输出观察输出观察示例见表6和表7。

演示系统系统的用户界面如图5所示。

图5：使用DOCBENCH数据集样本的演示系统。输入问题是“2018年塞浦路斯有多少人因洗钱罪被定罪？”答案是“26人”。表6：SPIQA两个样本的输出观察。问题：哪种方法，密度估计还是分类器混合，在处理异常值时更稳健？（https://arxiv.org/pdf/1805.06431 v4）正确答案：分类器混合证据：图表显示分类器混合方法即使在存在异常值的情况下也能正确分类数据点。这是因为分类器混合方法能够学习数据分布的不同模式，而密度估计方法则不能。非布局：根据提供的上下文，特别是来自参考文献4、6和7的信息，提出的方法（ChoiceNet）结合了多种密度来稳健地学习存在噪声（损坏）训练数据情况下的潜在目标分布，而分类器混合方法虽然有讨论，但似乎在独立区分干净和损坏模式方面面临挑战。在参考文献4和7中描述的回归任务和合成例子中，表明基于混合密度网络的方法在低异常值率下表现优于或显示出可比的结果，并在高异常值率（大于）下表现出优越性能。这从与其他方法（包括标准混合密度网络（MDN）和其他鲁棒损失方法）的比较中显而易见。具体来说，参考文献8中的图表明该方法在不同异常值率下保持较低的平均拟合误差，而参考文献8中的图显示即使在异常值的情况下也有更好的拟合结果。另一方面，分类器混合方法虽然理论上合理，但在实践中面临挑战。正如参考文献3所述，分类器混合可能在实践中无法很好地工作，因为两个分类器可以独立学习损坏模式，导致混合权重趋向于，从而难以在没有额外依赖或正则化的情况下区分干净和损坏的数据。因此，基于提供的上下文中给出的实证证据和详细解释，密度估计方法（特别是提出的混合密度网络方法）相比分类器混合方法对异常值更具鲁棒性。 Claude 3 Opus：根据图像中的信息，很难明确说明哪种方法——密度估计或分类器混合——对异常值更具鲁棒性。图表显示两种方法都被用作对损坏数据进行二元分类的过程的一部分，但并未明确比较它们对异常值的鲁棒性。然而，我们可以做出一些推断：

分类器混合方法（图表b部分）似乎更清楚地分离数据点，有明显的决策边界（标为W的红线）。这可能使其在处理异常值或损坏数据点时更具鲁棒性。
密度估计方法（图表a部分）显示数据点的重叠分布。虽然这可能很好地捕捉整体分布，但它可能更容易受到异常值的影响。
文字提到分类器混合方法（使用）旨在“通过最小化以下混合分类损失揭示反向模式”。这表明这种方法可能设计得更好，能处理损坏数据或异常值。
动机部分讨论了混合方法如何通过“使用另一个线性分类器”来辨别损坏数据，这可能意味着更好地处理异常值。鉴于这些要点，有轻微迹象表明分类器混合方法可能对异常值更具鲁棒性。然而，为了做出明确的陈述，我们需要更多关于每种方法如何处理异常值的具体信息，而这些在图像或文字中并未明确提供。布局感知：文档中描述的处理异常值的方法涉及两种主要方法：密度估计和分类器混合。根据提供的参考文献，可以从实证结果和理论框架中推断出对异常值的鲁棒性。
密度估计方法： - 密度估计方法利用混合密度网络（MDN）使用参数化分布（通常是高斯分布）对目标条件密度进行建模（参考文献3）。 - 该方法的鲁棒性在使用合成数据和真实世界数据集（如波士顿房价数据集）的回归任务中进行了评估（参考文献4）。结果显示，基于MDN构建的提出方法在低异常值率下表现出优于或可比的结果，而在高异常值率（>50%）下表现出优越性能（参考文献4）。 - 此外，MDN在极端噪声水平（60%）下的性能严重下降，表明在不同混合成分之间没有依赖关系的情况下，MDN难以正确分配高混合概率（参考文献4）。
分类器混合方法： - 分类器混合方法涉及对不同分类器的选择概率进行建模，并使用混合权重估计腐败概率（参考文献2）。 - 该方法采用具有分类器间负相关性的线性函数，以帮助区分清洁和腐败模式（参考文献3）。 - 在使用MNIST数据集的二分类任务中的一个说明性例子表明，ChoiceNet（使用分类器混合）成功推断出清洁数据分布，并有效处理腐败标签（参考文献7）。 - 报告的最终测试准确率（81.7%训练准确率和98.1%测试准确率）表明该方法可以稳健地处理嘈杂标签（参考文献7）。 比较与结论： - 密度估计方法表明它可以处理高异常值率，但在极端噪声水平下的性能显著下降。 - 特别是在ChoiceNet中实现的分类器混合方法在区分清洁和腐败数据方面表现出强大性能，并在大量嘈杂标签存在的情况下保持高准确率。基于实证结果和表现出的鲁棒性，分类器混合方法相比密度估计方法对异常值更具鲁棒性。分类器混合方法通过其相关引导机制有效地识别和管理腐败数据，从而更好地处理嘈杂数据集。表7：来自SPIQA的第二个样本的输出观察。问题：哪个模型在测试错误方面的表现最好？（https://arxiv.org/pdf/1805.06431v4）正确答案：CDAN (M) 证据：图(d)显示了不同模型的测试错误。CDAN (M) 的测试错误最低。非布局：根据提供的上下文，测试错误表现最好的模型是“CDAN+E (w/o随机抽样)”模型。该模型在所有转移任务中实现了最高的平均准确率，如参考文献8中的表格所示。具体而言，它实现了87.7%的平均准确率，高于其他CDAN+E变体（带有高斯抽样和均匀抽样的版本）。特定任务上的表现，例如, 和也支持这一结论，其中CDAN+E (w/o随机抽样)始终表现出优于或可比于其他模型的表现。因此，可以得出结论，“CDAN+E (w/o随机抽样)”在列出的模型中测试错误表现最佳。 Claude 3 Opus：我道歉，但我在这个图像中看不到任何关于模型性能或测试错误的信息。图像包含有关泛化错误分析、领域适应理论以及实验中使用的各种数据集的描述。它没有显示任何模型性能的结果或比较。要回答哪个模型在测试错误方面表现最佳，我们需要看到实际的实验结果或性能指标，而这些在这个特定图像中没有提供。布局感知：根据提供的上下文，特别是来自参考文献1（第7页）的信息，跨各种数据集和任务表现最佳的模型是 CDAN+E**模型。这可以从CDAN+E在多个基准数据集中相对于其他模型持续较高的分类准确性中观察到。以下是表格中的详细分解：
**Office-31 数据集 (AlexNet 和 ResNet-50 骨干网): - CDAN+E 实现了最高的平均准确率分别为 (AlexNet) 和 (ResNet-50)。
ImageCLEF-DA 数据集: - CDAN+E 记录了平均准确率为 (AlexNet) 和 (ResNet-50)，再次成为表现最佳者。
Office-Home 数据集: - CDAN+E 显示了最高的平均准确率为 (ResNet-50)。
**数字数据集 (MNIST, USPS, SVHN): - CDAN+E 实现了平均准确率为，超越了其他方法。
VisDA-2017 合成到真实数据集: - CDAN+E 实现了准确率为，高于其他对比方法。因此，在这些数据集中，CDAN+E 一贯优于其他领域适应方法，表明它具有最低的测试错误并且是表现最佳的整体模型。 CYPHER_QUERY_TEMPLATES = “““您需要构造一个Cypher查询，以从图数据库中检索请求的信息。下面提供了图模式以供参考。 (graph_schema) Cypher查询生成指南：
模式遵循：

只使用提供的关系类型和属性。

响应指南：

生成一个纯文本的Cypher查询，没有任何额外的格式。
只包括Cypher语句；排除任何解释、道歉或无关内容。

查询构造条件：

使用pageIdx和parentPageIdx来标识页面。不要使用pageNumber。
使用docType属性来标识文档类型。
如果提供了docName，请使用它来过滤节点。

处理不确定性：

如果不确定用户的请求或如果没有任何适用的Cypher查询，请返回空。

要避免的事情：

不要生成通用查询。如果请求缺乏具体细节，请返回空。
不要使用或推断任何额外的关系类型或属性。
不要生成过于复杂的查询。保持查询简单并专注于用户的请求。
除非明确要求，否则不要生成关键词查询。
不要编写可能会返回文档中所有SECTION、TABLE或DIAGRAM节点的查询。好的例子： - MATCH (s)-[:S_IS_UNDER_P]->(p:PAGE) WHERE toString(p.pageIdx) IN $pages AND s.parentDocName IN $doc_id RETURN s; – - 坏的例子： - MATCH (s:SECTION) WHERE s.parentDocName IN [’] RETURN s; – - MATCH (s:SECTION)-[:S_IS_UNDER_P]->(p:PAGE) WHERE s.parentDocName IN [’] RETURN s; – - 用户请求: {user_request} docName: {doc_name} Cypher查询 {生成一个纯文本的Cypher查询，没有任何额外的格式):““”

^https://software.fujitsu.com/jp/manual/manualfiles/ m150016/b1ww9681/07z000/tutorial.pdf 该模块使用重新排序来检索最相关的上下文。多种检索器的组合使所提出的流水线能够从上下文中检索更多相关的信息。推理步骤将输入查询和相关上下文结合起来，形成一个提示，传递给LLM以获得最终答案。简而言之，本文作出了三项主要贡献如下。