伪知识图谱：元路径引导检索与图内文本技术，助力RAG增强型LLM_chat2data: an interactive data analysis system wit-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/146166103

大型语言模型（LLMs）的出现彻底改变了自然语言处理。然而，这些模型在从大量数据集中检索精确信息时面临挑战。检索增强生成（RAG）旨在通过结合外部信息检索系统来增强LLMs，从而提高响应的准确性和上下文性。尽管有所改进，RAG在高容量、低信息密度数据库中的全面检索仍然存在困难，并且缺乏关系意识，导致答案碎片化。

为了解决这一问题，本文介绍了伪知识图谱（PKG）框架，该框架通过集成元路径检索、图内文本和向量检索到LLMs中，旨在克服这些限制。通过保留自然语言文本并利用各种检索技术，PKG提供了更丰富的知识表示并提高了信息检索的准确性。使用Open Compass和MultiHop-RAG基准进行的广泛评估表明，该框架在管理和处理大量数据及复杂关系方面具有有效性。

大型语言模型（LLMs）的出现 (Radford 等人，2019； Brown 等人，2020) 已经彻底改变了自然语言处理，使机器能够理解和生成与人类交流相似的文本 (Wei 等人，2022) 。这些模型经过广泛的训练，在各种应用中表现出色，包括聊天机器人和内容创作。然而，尽管它们具备这些能力，LLMs在从大量数据中检索特定信息时仍面临重大挑战 (Zhai，2008) 。这通常会导致不完整或不准确的答案，特别是在用户寻求详细见解时 (Hadi 等人，2023； Tamkin 等人，2021) 。尽管LLMs的能力不断增强，但在私有数据上部署它们并确保生成文本的真实性仍然是重大挑战。对LLMs进行特定领域的微调以及管理私有数据需要高昂的成本，尤其是在基础模型频繁更新的情况下，需要反复微调。此外，LLMs无法内在验证其输出的真实度，需要提取第三方事实以支持其主张。为了缓解这些问题 (Burtsev 等人，2023) , 研究人员开发了检索增强生成（RAG） (Lewis 等人， 2020) , 这是一种混合方法，将LLMs与外部信息检索系统相结合。RAG通过使LLMs检索和引用外部数据，解决了这些问题，增强了生成响应的准确性和真实性 (Siriwardhana 等人， 2023) 。

然而，RAG并不是万能的解决方案 (Bruckhaus，2024) 。 当所需信息分散在一个庞大的知识库中时，会带来检索全面答案的挑战。 这个问题在低信息密度、高冗余和分散信息的大规模数据库中尤为明显 (Cuconasu 等人，2024) 。 此外，传统的RAG系统往往难以识别和利用不同信息片段之间的关系。 从真实性的角度来看，仅依赖于向量数据库中基于相似度指标的前一或前三结果通常是不够的 (Gao 等人，2023) 。要确保检索信息的可靠性，需要多个支持事实。虽然向量数据库擅长检索语义相似项，但缺乏确保多样化的邻近机制，这对于捕捉复杂关系至关重要。复杂关系，例如多跳连接或实体之间的间接关联，不能通过简单的相似度指标充分表示 (Yang 等人，2018) 。这种局限性强调了对更复杂的检索方法的需求，如基于元路径的方法，可以揭示复杂的关系路径并为LLMs提供更丰富的背景 (Pan 等人，2024) 。

为了解决这些挑战，迫切需要创新的存储和检索方法，这些方法既能发挥向量数据库的优势，又能克服其局限性。传统的方法将LLMs与知识图谱（LLM-KG）相结合，利用图结构的性质提供上下文关系和事实依据，从而提高生成响应的准确性和连贯性。然而，这些系统也面临显著的局限性。LLMs常常难以有效处理结构化图数据，导致不完整或碎片化的答案 (Sui 等人，2024；Meyer 等人， 2023) 。此外，传统知识图谱是静态的，可能无法捕捉现实世界知识的动态性质，而将其与LLMs的集成通常需要大量的微调和领域特定的适应，这是计算昂贵的 (Pan 等人，2023) 。这些挑战突显了需要一种更灵活和可扩展的方法，以弥合结构化和非结构化数据之间的差距。

本文引入了伪知识图谱（PKG），这是一个创新的框架，通过解决与复杂数据关系相关的挑战来增强 大规模 信息处理。基于RAG范式，PKG集成了知识图谱、元路径检索和自然语言文本保存，创建了一个强大且上下文感知的检索系统。在其核心，PKG存储实体及其关系的结构化表示，同时保留原始文本片段，使LLMs能够有效地处理和解释信息，克服其处理纯结构化数据的局限性。PKG采用先进的检索技术，包括用于语义相似性的向量检索和用于揭示复杂多跳关系（如“作者-论文-会议”或“疾病-症状-治疗”）的元路径检索。这些方法使PKG能够识别语义相关的信息并探索复杂的关系路径，促进对上下文和联系的更深层次理解。通过无缝集成结构化和非结构化数据，PKG在需要多跳推理和上下文感知的场景中表现出色，如科学研究、法律分析和医疗保健。这种方法提高了生成答案的准确性和相关性，使用户能够有效地导航复杂的知识库并做出更明智的决策。

为了评估我们方法的有效性，我们使用了两种基准测试（Open Compass和MultiHop-RAG）生成了一组多样化的问题，基于多个常用的大规模语言模型。这种方法使我们能够彻底检查框架在不同场景和上下文中的性能。这项工作的贡献可以总结如下：

我们提出了一种构建和检索知识的框架，即伪知识图谱（PKG）。该框架使语言模型能够从大量离散知识中准确检索相关信息。
我们将多种检索技术集成到PKG搜索中，包括正则表达式匹配、向量检索、基于关系的检索和元路径检索，在信息检索方面取得了显著成果。
我们在多个常用的模型上进行了广泛的评估，基于Open Compass和MultiHop-RAG基准，展示了PKG框架在处理知识库中的大量信息和复杂关系方面的卓越性能。
2 相关工作
2.1 检索增强生成
在预训练语言模型推出后不久 (Devlin 等人， 2019) , 大型语言模型（LLMs） (Brown 等人，2020) 显著推进了自然语言处理，在翻译和摘要等任务中表现出色 (Chang 等人，2024；Zhao 等人， 2024) 。然而，它们经常在事实准确性方面遇到挑战，由于依赖于学习模式而生成过时或错误的信息。为了解决这些挑战，引入了检索增强生成（RAG）框架 (Lewis 等人，2020) 。RAG通过结合检索机制增强了LLMs的生成能力，使其能够访问来自外部知识库的相关信息 (Li 等人，2022) 。这个两步过程首先根据输入查询检索相关文档，然后用它们来指导响应生成。通过集成检索和生成，RAG提高了事实准确性，并丰富了带有当前、上下文相关的信息的内容 (Jiang 等人，2023) 。
RAG在问答和对话代理应用程序中显示出令人鼓舞的结果，为结合检索和生成技术设定了新的标准。将向量数据库与RAG结合具有巨大的潜力，可以提高与LLMs一起使用的信息检索效率和效果 (Salemi 和 Zamani，2024) 。
2.2 知识图谱
在LLMs出现之前，知识图谱（KGs） (Fensel 等人， 2020) 是信息检索 (Reinanda 等人， 2020) 和智能问答 (Yasunaga 等人，2021；Zou， 2020) 的首选方案。KGs是知识的结构化表示，以图形格式捕获实体之间的关系。它们由节点（实体）和边（关系）组成，以机器可读和人类易懂的方式组织信息。此框架整合了不同的数据源，代表一个统一结构中的复杂关系和概念，通常通过元数据增强以获得更好的上下文理解。
KGs有多种应用 (Zou，2020；Hao 等人， 2021) 。在搜索引擎中，它们通过提供关于实体的上下文信息来提高相关性。在自然语言处理中，它们通过将查询链接到相关知识来增强问答系统。KGs还通过理解用户偏好来辅助推荐系统。医疗、金融和电子商务等行业使用KGs进行数据集成和决策支持，推动各个领域的创新和效率提升。
2.3 语言模型与知识图谱的交互
将语言模型与知识图谱集成对于推进自然语言处理至关重要 (Pan 等人，2024；Pan 等人， 2023) 。语言模型擅长理解和生成类似人类的文本，提供灵活性和上下文感知 (Kaddour 等人，2023； Hadi 等人，2023) 。相比之下，知识图谱提供结构化信息，捕捉关系和事实以确保准确性和连贯性。
这种协同作用允许语言模型通过从非结构化文本中识别实体和关系来帮助构建知识图谱 (Meyer 等人， 2023；Zhang 和 Soh，2024) 。相反，知识图谱通过在训练和推理中引入结构化知识来增强语言模型 (Abu-Rasheed 等人， 2024；Shu 等人，2024) ，提高文本准确性和推理能力。
在预训练期间，知识图谱三元组可以转换为文本，以帮助语言模型学习结构化信息，改善其对事实知识的理解 (Zhang 等人，2024) 。例如，ERNIE 3.0 (Sun 等人，2021) 使用分词后的三元组来遮蔽实体和关系，促进有效学习。在推理过程中，语言模型从知识图谱中检索实时信息，生成精确且上下文相关的响应。
此外，语言模型对于通过从最新数据中提取新实体和关系来更新知识图谱至关重要 (Edge 等人，2024) 。这个持续的过程确保图谱保持准确和相关。通过检测不一致并建议更新，语言模型显著提升了知识表示的质量，提高了自然语言处理应用程序的有效性。
3 方法论
在本节中，我们提出了基于伪知识图谱（PKG）的信息检索系统，该系统通过集成PKG语义和协作语义来增强大型语言模型（LLMs）的性能。所提出的PKG方法的整体框架如图 1 所示。
PKG是一个复杂的RAG框架，旨在应对处理大量信息和管理复杂数据关系的挑战。PKG利用知识图谱、LLMs和元路径检索的互补优势，建立了一个高度适应性强且上下文敏感的检索系统。其设计的核心在于，PKG在结构化图框架中存储实体及其相互关系的多样化表示，同时保留这些元素来源的原始自然语言文本片段。这种混合方法——结合结构化图数据与非结构化文本——确保LLMs能够高效地解释和利用检索到的信息，绕过其处理纯结构化数据格式的典型难题。通过保留自然语言的丰富性，PKG增强了LLMs生成准确且上下文相关响应的能力，成为浏览复杂知识领域的有力工具。
3.1 方法概述
如第 1 节所述，传统的RAG系统依赖向量数据库难以有效管理大量复杂信息 (Zhao 等人，2024) ，这大大限制了LLMs在处理大型知识库时的能力。为了解决这些限制，我们提出了伪知识图谱（PKG）框架，这是一种新颖的方法，旨在增强语义理解、关系提取和信息检索效率。PKG通过将结构化知识表示与非结构化自然语言文本相结合，使LLMs能够更有效地处理复杂数据。该框架包含两个核心组件：
PKG Builder（第 3.2 节）是一种自动构建PKG的工具。它采用高级技术从非结构化文本中识别实体并提取关系，将原始数据转换为结构化图格式。通过结合传统的NLP算法（如分词、依存句法分析）与最先进的语言模型技术，PKG Builder确保了图构建的高准确性和可扩展性。这种混合方法利用了基于规则的方法和机器学习模型的优点，相比现有方法提供了更可靠和精确的知识表示。PKG Builder还保留了图中的原始文本片段，使LLMs能够以自然语言形式处理信息，从而克服其处理纯结构化数据的局限性。
PKG Retriever（第 3.3 节）支持从构建的PKG中进行高效灵活的信息检索。它支持关键词搜索、语义搜索和元路径搜索等多种检索方法，使用户能够执行利用PKG中定义的关系和属性的复杂查询。PKG Retriever设计了以用户为中心的界面，允许用户过滤结果、可视化实体连接并提取可操作的见解。通过结合这些功能，PKG Retriever增强了LLMs的决策过程，使其能够生成更准确和上下文相关的响应。特别是元路径检索的集成，使得可以探索复杂的多跳关系，这对于需要深度上下文理解的任务至关重要。
在接下来的部分中，我们将详细说明方法论，包括PKG的构建和支撑其有效性的检索机制。

我们提出的PKG方法的整体框架。我们通过集成多种构建和检索PKG的方法来增强LLMs。

3.2 PKG Builder
构建PKG的关键挑战之一是从非结构化文本中准确提取和表示实体及其关系。我们采用了一种结合传统NLP算法与先进语言模型技术的混合方法，以增强实体识别和关系提取。本节概述了PKG Builder的方法，主要包括两个主要步骤：（1）应用NLP算法识别实体和关系，将原始数据转换为结构化格式；（2）使用语言模型优化提取过程。此外，我们优化了存储方法以提高数据的可访问性、可扩展性和灵活性。整个过程如图所示。
3.2.1 基于NLP方法的实体和关系提取
实体和关系提取是PKG构建的基础，涉及识别实体（如人、组织、地点）及其关系。为了实现高性能，我们集成了多种方法来自动化此过程。
提取管道从文本分段和压缩开始。文本被分解成易于管理的单元，如句子和短语，使用诸如句子边界检测和分词等方法 (Palmer，2000； Minixhofer 等人，2023) 。对于压缩，应用诸如摘要和降噪等技术以去除冗余或无关信息，提高效率。抽取摘要 (Zhong 等人，2020；Liu， 2019) 和停用词移除 (Silva 和 Ribeiro，2003； Raulji 和 Saini，2016) 简化了文本，为准确的实体和关系提取奠定了基础。
对于实体提取，我们使用传统的NLP方法，包括手工规则、正则表达式和语言线索，这些方法在明确定义的上下文中非常精确，但需要领域特定的知识。我们还使用条件随机场（CRFs） (Peng 和 McCallum，2006；Patil 等人，2020) 和隐马尔可夫模型（HMMs） (Sarawagi 和 Cohen， 2004；Scheffer 等人，2001) , 这些方法结合了诸如词性标签、大小写和上下文信息等特征。
对于关系提取，我们使用句法分析，特别是依存句法分析，来分析句子结构并识别潜在的关系。使用基于句法结构或特定短语定义的规则模式来检测关系。此外，还采用了支持向量机（SVMs） (Hong，2005) 和决策树 (Sato 和 Tsukimoto， 2001；Yang 等人，2006) 等机器学习模型，利用标记数据集和特征（如词对和依存路径）对关系进行分类 (Washio 和 Kato， 2018) 。统计共现测量还用于根据实体共现频率推断关系。这种混合方法确保了稳健且准确的实体和关系提取。
3.2.2 基于LLMs的实体和关系提取
为了进一步增强提取，我们结合了LLMs，如第 4.2 节所述。使用多部分提示，我们首先识别实体，详细描述其名称、类型和描述，然后区分它们之间的关系，指定源实体和目标实体。提取的数据被合并为一个分隔符列表。为了使LLMs适应特定领域，我们使用少量样本学习 (Wang 等人， 2020；Song 等人，2023) , 在科学、医学和法律等专业领域特别有效。默认提示涵盖了广泛的实体，但可以通过添加领域特定示例进行定制以提高精度。
为了确保完整性和质量，我们实施了多轮收集过程。LLM首先评估是否已提取所有实体，使用二进制决策的日志偏置。如果检测到缺失的实体，则触发继续提示以恢复它们，确保高质量的提取，即使对于较大的文本块也是如此。这种迭代方法最大限度地减少了噪声，同时最大化数据完整性。
此外，LLMs用于审查和验证传统NLP方法提取的信息。通过结合这两种方法的见解，我们实现了全面且准确的最终结果。这包括捕获与实体相关的相关声明，如主题、对象、类型、描述和时间信息，增强了提取数据的深度和精度。
通过将LLMs与传统NLP技术相结合，PKG Builder在实体和关系提取方面达到了稳健且可扩展的解决方案，适用于各种领域。
节点及其属性。(a) 展示了基本节点的组成部分；(b) 展示了从单个文本块节点中提取的两个实体节点示例。

PKG存储系统中的文本数据组织。每个实体节点必须至少连接到一个源文本块节点。
3.2.3 实体和关系的存储
从基于文本的知识库中提取实体和关系后，有效的存储对于高效的查询至关重要。虽然传统知识图谱 (Shu 等人，2024；Edge 等人， 2024) 在管理结构化数据和复杂关系方面表现出色 (Kejriwal，2022) , 它们通常在支持LLMs方面表现不佳，因为LLMs在处理自然语言方面表现更好 (Sui 等人，2024；Zhang 等人， 2024) 。为此，我们开发了一种优化的存储结构，结合了图数据库和自然语言文本的优势。
我们使用Neo4j (Miller，2013；Guia 等人， 2017) 和 OrientDB (Ritter 等人， 2021；Tesoriero，2013) 等图数据库来存储PKG，因为它们可以高效处理复杂关系。实体及其属性作为节点存储，关系表示为边。为了提高查询速度和语义分析，我们使用Word2Vec (Church，2017) 、GloVe (Pennington 等人， 2014) 或基于变换器的模型（如BERT） (Devlin 等人， 2019) 将每个节点向量化。这些向量在高维空间中捕捉节点的语义含义，通过快速相似度搜索（如余弦相似度）实现相关概念或实体的高效检索，如图 2 所示。
我们方法的一个关键创新是在图中集成文本。与传统知识图谱仅依赖结构化数据不同，我们将原始分割的文本块作为节点存储在图数据库中，并将其链接到相应的实体（见图 3 ）。这确保在查询时可以向LLMs提供相关的自然语言文本片段，利用它们处理非结构化文本的优势。例如，在法律文件分析中，将案例法文本片段链接到特定法律实体，使LLMs能够更有效地解释复杂的法律语言。同样，在科学研究中，将研究论文中的文本与科学概念关联起来，可以实现复杂主题的精确检索和理解。
通过结合图数据库、向量化和图内文本，我们创建了一个强大的存储系统，该系统能够充分利用结构化和非结构化数据。图数据库处理复杂关系，向量化实现快速语义搜索，而图内文本增强了LLMs处理自然语言的能力，确保准确且上下文丰富的响应。这种混合方法解决了传统RAG和知识图谱系统的局限性，使PKG成为知识检索和推理的强大工具。

总之，PKG Builder通过将先进语言模型与传统NLP技术相结合，增强了PKG的构建。实体和关系使用NLP方法识别，并通过语言模型进行细化以确保准确性和完整性。提取的数据存储在图数据库中，经过优化以便高效检索，并通过向量化技术进一步增强。这使得结构化和非结构化数据得以无缝集成，便于更有效的查询和利用，支持法律分析、科学研究和医疗保健等领域的复杂数据交互和检索。
3.3 PKG Retriever
给定用户查询后，我们可以提取大量信息，包括查询本身、其向量表示（捕捉语义信息）、其中包含的实体、回答所需的关系以及假设的答案。利用这些多样化的信息，我们开发了三种检索方法来访问准备好的PKG：正则表达式匹配、基于向量的检索和元路径检索。每种方法都利用了从查询派生的不同方面，实现了相关数据的有效和高效识别。正则表达式匹配用于精确模式搜索，基于向量的检索利用语义相似性进行灵活匹配，而元路径检索揭示实体之间的复杂关系路径。通过结合这些技术，我们确保了全面且适应性强的检索过程，能够处理不同复杂度和具体性的查询。PKG Retriever的整体框架如图所示。
3.3.1 正则表达式检索
正则表达式检索是一种简单但有效的方法，用于从预定义的数据集或文本语料库中提取信息。它擅长处理涉及特定实体或模式的查询，通过匹配预定义的字符串模式在PKG中查找相关信息。例如，可以设计一个正则表达式来识别文档中的常见日期格式（如“YYYY-MM-DD”或“DD/MM/YYYY”），从而精确提取相关信息。这种方法在PKG中特别有用，因为实体及其关系以结构化格式存储，允许高效的模式搜索。
当使用正则表达式检索节点时，它可以提供对一组互连节点及其关联信息的访问。此功能对于需要上下文理解的任务至关重要，例如从时间线中提取事件序列或识别实体之间的关系。例如，在文献KG中，正则表达式可以检索包含特定年份范围内的出版物节点，从而方便提取相关文章或论文。
虽然正则表达式检索对于结构化数据非常强大，但它可以与其他检索技术（例如基于向量或元路径的检索）结合使用，以提高其有效性，如第 3.3.4 节所述。总之，正则表达式检索为通过模式识别访问结构化信息提供了可靠机制，是PKG中信息检索的基础方法。
3.3.2 向量检索
向量检索是一种先进的信息提取方法，通过利用向量空间模型来检索PKG中的信息。与依赖于精确模式匹配的正则表达式检索不同，向量检索通过将实体及其上下文关系嵌入高维向量空间来识别语义相似的节点。这使得即使没有精确的文本匹配，也能检索到与查询语义相关的节点。例如，查询“机器学习”可以检索到与“人工智能”或“神经网络”相关的节点，通过计算它们的向量表示之间的相似度。这种方法特别适用于需要语义理解和相似性匹配的查询。
除了查询向量外，系统还可以利用假设答案的向量 (Gao 等人，2022) 来增强检索能力。这种方法识别与潜在答案密切相关的信息，显著扩展了检索数据的范围。然而，管理由此产生的大量信息是一个挑战，我们在第 3.3.4 节中讨论了解决方案。
向量检索还支持PKG中的聚类和分类任务，使类似节点的分组和图中模式的识别成为可能。例如，在社交媒体分析中，基于向量的聚类可以识别热门话题或相关内容的集群，提供关于用户兴趣和新兴讨论的见解。在科学研究中，它可以映射研究论文之间的关系，即使没有直接引用，也能揭示跨学科的联系。这种能力加速了知识发现并促进了跨领域的合作。
总之，向量检索增强了语义理解，并通过高维向量表示发现了实体之间复杂的连接。通过引入查询、实体和假设答案的向量，它提供了一种强大的机制来揭示模式和趋势。尽管有效，但需要仔细管理检索到的数据以确保效率和相关性。总体而言，向量检索显著推进了各种领域中的数据分析和洞察生成。
元路径检索器。使用元路径时，我们只关注节点链而不考虑它们之间的关系。获得节点序列后，我们可以分析不同实体之间的连接。（b）和（c）展示了子图（a）中突出不同关系和交互的各种元路径。
3.3.3 元路径检索
在传统KG中，元路径是探索实体间关系的核心功能。元路径是知识图谱中定义特定关系路径的节点和边序列，允许发现复杂和多跳连接。例如，像“教授-项目-教授”这样的元路径可以识别所有通过共同项目与特定教授合作过的教授。这种能力是元路径检索独有的，因为它揭示了比常规方法更为复杂和细微的关系。
然而，将知识图谱的元路径与LLMs集成存在挑战 (Chen 等人，2023) 。一方面，动态构建和查询处理期间遍历元路径的计算复杂性可能导致高延迟，限制了其实际应用。另一方面，尽管大型语言模型在处理自然语言方面表现出色，但在处理元路径时仍存在技术障碍。

例如，在研究合作网络中，像“项目-论文-研究员”这样的元路径可以预先存储在节点属性中。当发出查询时，系统可以通过遍历这些预构建的路径快速识别与特定项目相关的研究人员。这种方法不仅减少了查询延迟，还增强了系统发现复杂关系的能力，否则需要大量的计算资源。
通过采用这种方法，我们简化了元路径检索过程，实现了PKG内关系的高效和可扩展的多跳探索。预存储的元路径最小化了计算开销，而轻量级模型确保了动态且上下文感知的路径选择。这一创新显著增强了系统处理复杂查询的能力，使其特别适用于需要深度关系推理的应用，如学术合作分析、社交网络探索和生物医学知识发现。
总之，我们的元路径检索方法通过结合预构建的元路径与轻量级上下文感知模型，解决了传统方法的局限性。这种方法不仅提高了检索效率，还为探索复杂数据关系开辟了新的途径，使更多领域的深入分析和应用成为可能。
3.3.4 后处理
使用上述方法检索信息后，下一步是整合和重新排序数据，以确定与查询最相关的信息。这个后处理阶段对于确保最终输出的准确性、连贯性和全面性至关重要。
整合过程从合并来自三种检索方法的结果开始：正则表达式检索、向量检索和元路径检索。每种方法都有独特的优势：正则表达式检索提供精确的模式匹配，向量检索通过识别上下文相关的信息增强语义相似性，元路径检索揭示实体之间的复杂关系路径。例如，在针对特定主题的研究数据库查询中，正则表达式检索可以识别研究人员姓名或关键词的确切匹配。向量检索随后通过查找语义相关的主题扩展了查询范围，即使使用不同的术语也是如此。最后，元路径检索可以追踪通过共享项目或合著网络的间接合作，揭示隐藏的深层连接。
一旦整合完成，重新排序过程 (Sachan 等人，2022；Sun 等人， 2023) 根据其与查询的相关性优先排列结果。这涉及根据频率、语义相关性和元路径识别的关系强度等因素对每条信息进行评分。此外，我们利用大型语言模型（LLMs）评估内容的相关性和准确性。通过使用LLMs，我们可以动态评估检索信息的质量并根据上下文理解调整排名。此外，LLMs可以从历史查询数据中学习，识别模式并随着时间的推移改进重新排序过程。这种自适应方法使系统能够预测未来类似查询所需的最相关信息类型，从而提升检索性能。
总之，后处理阶段在精炼检索数据方面发挥着关键作用，确保最终输出既全面又高度相关于查询要求。通过整合多种检索方法并利用LLMs进行重新排序，系统能够生成精确且上下文适当的结果，从而为用户提供准确且富有洞察力的响应。
4 实验
在第 4.1 节中，我们详细描述了实验中使用的数据集。第 4.2 节概述了所用的模型，第 4.3 节讨论了实验设置。第 4.4 节展示了整体性能评估，涵盖了多种评估指标。第 4.5 节进行了消融研究，分析各个组件对系统性能的贡献。第 4.6 节提供了进一步分析，探讨了模型大小和检索方法对结果的影响。最后，第 4.7 节通过具体示例展示了我们方法的实际应用和有效性。

4.1 数据集
我们在第 4.1 节中提供了实验中使用的数据集的详细描述。第 4.2 节概述了所用的模型，第 4.3 节讨论了实验设置。第 4.4 节展示了整体性能评估，涵盖多种评估指标。第 4.5 节进行了消融研究，分析各个组件对系统性能的贡献。第 4.6 节提供了进一步分析，探讨了模型大小和检索方法对结果的影响。最后，第 4.7 节通过具体示例展示了我们方法的实际应用和有效性。我们选择了Open Compass (Buitrago 和 Nystrom，2019) 和 MultiHop-RAG (Tang 和 Yang，2024) , 两个数据集包含大约一百万个标记——相当于约十本小说的文本量——以代表在现实世界场景中遇到的庞大和多样化的语料库。Open Compass 强调用户驱动的交互，为评估模型处理对话和上下文感知任务的能力提供了丰富的基础。相比之下，MultiHop-RAG 关注结构化、多跳推理，挑战模型从多个文档中综合信息并进行复杂推理。这两个数据集共同提供了互补的评估框架，使我们能够全面评估所提出的方法在广泛的任务和情境中的表现，从对话理解到高级推理和信息综合。
4.1.1 Open Compass
Open Compass 是一个专门设计用于评估语言模型在各种自然语言处理（NLP）任务上的性能的数据集。它包括多样化的用户生成内容，如问题和回答，反映了真实世界的互动。这个数据集对于评估模型在实际场景中的理解和生成能力特别有价值。Open Compass 结构用于测试语言理解的各个方面，包括：

MMLU（大规模多任务语言理解） (Hendrycks 等人， 2021) : 测量模型在人文科学、STEM和社会科学等多个领域的任务执行能力。
AGIEval（人工智能通用智能评估） (Zhong 等人， 2023) : 评估模型在需要通用智能的任务上的表现，例如逻辑推理和问题解决。
NQ（自然问题） (Hasan 等人，2024) : 通过从大型语料库中检索相关信息来测试模型回答基于事实的问题的能力。
CSQA（常识问答） (Talmor 等人，2019) : 评估模型利用常识知识回答需要超越显性事实进行推理的问题的能力。
OpenBookQA (Alkhaldi，2023) : 评估模型通过结合显性知识与推理回答问题的能力，模拟开卷考试。
NLI（自然语言推理） (Nie 等人，2020) : 测试模型理解句子间关系（如蕴含和矛盾）的能力。
COPA（选择合理替代方案） (Huang 等人，2024) : 测量模型在给定情境下选择最可能的结果或原因的能力，需要因果推理。
通过涵盖这些多样化任务，Open Compass 提供了一个全面的评估框架，用于评估语言模型在现实应用中的稳健性和多功能性。
4.1.2 MultiHop-RAG
MultiHop-RAG 是一个多跳推理任务的基准数据集，要求模型连接来自多个文档的信息以回答复杂查询。它包括2013年9月至2023年12月期间发布的大量新闻文章，涵盖了娱乐、商业、体育、科技、健康和科学等类别。该数据集旨在评估模型从不同来源综合信息并生成连贯、上下文适当响应的能力。MultiHop-RAG 的关键特征包括：
推理查询：要求模型通过连接来自不同文章的信息进行多跳推理，以推导出正确答案。这测试了模型整合和推理多个信息片段的能力。
时间查询：评估模型分析和利用检索到的数据中的时间信息的能力，例如识别事件的时间顺序或理解时间敏感的上下文。
由于其对多跳推理和时间理解的强调，MultiHop-RAG 特别具有挑战性，这对于需要深度上下文分析和从多个来源综合信息的任务至关重要。数据集的复杂性使其成为评估语言模型高级检索和推理能力的理想基准。
4.2 模型
我们在第 4.3 节的不同设置中比较了以下常用的开源LLMs作为基线模型：
GPT (Radford 等人，2018) 是一种使用变换器架构生成连贯且上下文相关的文本的突破性语言模型。我们选择了GPT-2，因为它是GPT系列中最新的开源模型。
LLaMA (Touvron 等人，2023) 是一系列专为高效语言处理设计的模型。特别是LLaMA-2-7b在生成和理解文本方面表现出色，在各种任务上展示了高性能。
Phi (Abdin 等人，2024) 通过结合变换器架构和新颖的神经网络设计引入了一种创新的语言建模方法，增强了理解和生成能力。
ChatGLM (Team GLM，2024) 是一个优化用于交互式对话的对话AI模型。其复杂的架构改进了上下文理解，并在实时互动中提供信息响应。
Qwen (Bai 等人，2023) 包含参数大小各异的一系列模型。在实验中，我们使用了Qwen2.5系列的不同模型，包括0.5B、1.5B、3B和7B，以探索它们在各项任务中的表现。
4.3 设置
在我们的分析中，我们旨在评估不同检索条件下各种模型的性能和能力。具体来说，我们调查了四种不同的配置，如下所示：
4.3.1 LLM-Base（仅限LLM）
此方法仅使用标准语言模型来处理用户查询，不附加任何额外的上下文或检索机制，这意味着所有答案中的信息完全来自模型本身。
4.3.2 LLM-VDB（带有向量数据库RAG的LLM）
在此设置中，我们通过集成检索增强生成（RAG）方法，使用向量数据库 (Jing 等人，2024) 来提供回答查询所需的上下文，从而增强语言模型的能力。在我们的设置中，我们使用Elasticsearch (Elasticsearch，2018) 作为向量数据库进行检索增强生成。设置Elasticsearch集群并对文档进行向量嵌入索引后，查询通过搜索向量空间来找到最相关的上下文。
4.3.3 LLM-KG（带有传统知识图谱的LLM）
我们使用传统的KG作为检索器。KG以结构化格式表示信息，使用节点和边来捕捉实体之间的关系。在我们的设置中，我们使用LightRAG (Guo 等人，2024) 作为KG检索器。我们需要首先构建KG，然后将LightRAG与KG集成，设置模型以查询节点和边，检索相关信息以增强语言模型的响应。这涉及配置LightRAG以与现有KG结构进行交互。
4.3.4 LLM-PKG（带有伪知识图谱的LLM）
在此设置中，我们通过集成PKG，如第 3 节所述，增强了模型，使系统能够动态访问相关数据并丰富响应质量。
4.4 总体性能
我们使用多种指标评估了提出的伪知识图谱（PKG）框架与各种基线模型的性能，整体结果如表 [tab:overall] 所示。分析揭示了以下关键见解：
对于基线方法，LLM模型在考试（即MMLU和AGIEval）、推理（即NLI和COPA）方面表现良好，但在知识（即NQ和CSQA）和理解（即OpenBookQA）方面表现不佳。这些模型在基于知识的任务中表现不佳，因为它们需要更深入的理解科学事实以及连接分散信息的能力。这种差异源于LLMs倾向于在其训练数据相似的材料上表现良好。当遇到陌生信息时，其理解能力有限。通过引入RAG，LLMs可以访问外部知识源，从而提高其在基于知识的任务上的表现。这种访问允许它们从庞大的数据库中提取相关信息，改善其回答基于事实的问题的能力。同样，将KGs与LLMs结合使用也带来了显著提升。KGs提供了结构化信息和实体之间复杂的关系，不仅丰富了知识库，还提高了推理和理解能力。带有KGs的LLMs在这些领域优于带有RAG的LLMs，因为KGs提供了更丰富的上下文和更细致的理解，有助于解释和推理复杂情况。然而，由于LLMs在处理结构化数据方面的局限性，KGs在不需要强逻辑推理的任务中不如基于向量数据库的RAG表现好。
我们提出的PKG在大多数数据集指标上保持最佳表现，并显示出比基线方法有显著改进。这种优越的表现可归因于三个因素：i) 我们通过PKG为LLMs提供了丰富的信息，利用了多样化的检索方法。这种多样性导致了更广泛的信息类型和更高品质的数据，增强了模型理解和生成准确响应的能力；ii) 通过在PKG中保留原始文本片段，LLMs可以绕过处理结构化数据的复杂性。这使得模型能够更好地理解和解释知识，因为它们可以处理熟悉的非结构化文本格式；iii) 我们利用元路径进行更复杂的关系分析，这显著提升了我们方法在理解和推理任务中的表现。这种能力使模型能够识别数据中的复杂模式和联系，从而在这些具有挑战性的领域中取得更好的结果。
4.5 消融研究

4.5.1 构建和存储
我们提出的PKG Builder由多个组件组成，包括：i) 传统基于NLP的提取（NLP EX）：这种方法使用已建立的自然语言处理技术，如分词和基于规则的命名实体识别；ii) 基于LLM的提取（LLM EX）：这种方法利用像GPT这样的LLMs来解释和提取信息，允许从复杂和非结构化文本中更灵活地提取信息；iii) 图内文本块（ING TEXT）：通过在PKG中嵌入文本段落，我们保留了原始文本的完整信息，帮助LLMs更好地理解知识。为了评估每个组件的有效性，我们使用Qwen2.5-7b在CSQA和OpenBookQA数据集上进行了消融研究。选择这些数据集是因为其复杂性和丰富的知识内容，使我们能够彻底分析每个部分的贡献。
如表 1 所示，结果表明，传统NLP和LLM方法都显著增强了PKG的性能。特别是嵌入图内文本块的影响尤为显著。这种方法保留了原始信息的完整上下文，使语言模型能够在各种情况下更有效地理解知识。通过保持源材料的完整性，这些图内文本块使语言模型能够获得更深层次的见解和更准确的解释。PKG Builder的所有组件都有助于构建强大的PKG，为未来的检索任务提供了巨大的潜力。

4.5.2 检索方法
除了构建PKG，我们还检查了所提出的检索方法，包括：i) 正则表达式检索（REG RE）：这种方法使用模式匹配从PKG中搜索和检索特定信息；ii) 向量检索（VEC RE）：通过使用嵌入技术将文本转换为高维向量，这种方法允许语义搜索，实现基于含义而非精确匹配的检索；iii) 元路径检索（META-PATH RE）：这种方法通过导航PKG中的元路径来检索信息，利用实体之间的关系。为了验证每种检索方法的有效性，我们在Qwen2.5-7b和MultiHop-RAG数据集上进行了消融研究，以分析各个部分的贡献。选择MultiHop-RAG数据集是因为它对检索技术提出了重大挑战。它不仅要求找到相关文本，还需要理解和反映它们之间的关系。这种复杂性使其成为高级检索系统的理想测试。
如表 2 所示，基本检索方法正则匹配为LLMs提供了外部世界知识，扩展了其固有的权重。这种扩展的知识显著增强了LLMs在需要广泛信息的任务中的表现。然而，在推理任务中，正则表达式检索并不有效。相反，向量检索和元路径检索在大多数情况下表现出色。向量检索之所以出色，是因为它通过捕捉词汇和短语的含义和上下文提供了语义信息，使LLMs能够理解和处理复杂的语言模式。这种方法利用嵌入技术将查询与相关数据点匹配，增强了模型根据语义相似性绘制连接和推断意义的能力。另一方面，元路径检索提供了一种结构化的方式来表示实体之间的关系，这对于推理任务至关重要。通过描绘关系路径，这种方法帮助LLMs理解复杂交互和依赖关系，使更准确的推理和演绎成为可能。这种方法对于需要理解信息潜在结构并从互连数据点中得出逻辑结论的任务特别有益。
总体而言，虽然正则匹配作为扩展知识的基础方法，向量检索和元路径检索的结合提供了一种更复杂和有效的增强LLMs推理能力的方法。这三种检索方法共同构成了一个全面的PKG检索系统。
4.6 进一步分析

在Multihop-RAG数据集上不同检索器设置的性能比较。左面板显示推理性能，右面板展示了各种配置（Qwen2.5-0.5B、Qwen2.5-1.5B、Qwen2.5-3B和Qwen2.5-7B）的时间性能。
在进行消融实验后，我们旨在探讨PKG对不同规模模型的影响。基于第 4.5.2 节的消融测试，我们在Qwen系列的不同参数规模模型上评估了PKG系统，具体包括0.5B、1.5B、3B和7B参数的模型。我们在扩展的MultiHop-RAG数据集上评估了这些模型的性能，结果如图 5 所示。
结果表明，当仅依赖LLM本身时，较大模型由于参数数量较多而优于较小模型，这些参数封装了更多信息和推理能力。然而，当引入检索结果时，所有模型的性能均有所提高。值得注意的是，较小模型获得了显著增强，缩小了与较大模型的差距。这表明检索在增强模型能力方面非常有效，尤其是对于参数较少的模型。在不同的检索系统中，PKG表现最好，超过了基于向量的数据库和传统KG。

4.7 案例研究
LLMs已被证明是自然语言生成的良好评估者，与人类判断相比，达到了最先进的或竞争性结果 (Wang 等人，2024) 。在本节中，我们将基于给定的问题探索不同的检索系统，如表 [tab:case study] 所示。我们为不同的检索器提供了一个大型知识库，其中包含回答问题所需的信息和其他与问题无关的信息。我们希望查看检索系统是否能准确和精确地从知识库中获取信息并将其处理以供LLMs使用。表 [tab:case study] 显示了LLM生成的评估示例。
对于LLM本身，它可以基于其训练数据提供一般见解。它识别了一些广泛的新兴生物技术，如CRISPR和合成生物学，这些技术多年来一直相关。然而，响应可能包括过时或推测性的信息，导致幻觉。它缺乏特异性，无法反映2024年的最新发展。带有向量数据库RAG的LLM使用检索补充LLM的响应，提供更多最新和具体的资料。它识别了诸如PrimeRoot系统和PASTE技术等精确技术。尽管它提供了准确的信息，但可能仍然会忽略更广泛的背景或其他相关进展，集中在某些技术上。带有KG的LLM允许对主题进行结构化和互联的理解。这种方法可以突出技术之间的关系及其潜在影响，但可能仍然缺乏对每种技术的具体机制和应用的深入解释，导致不太全面的答案。带有PKG的LLM方法结合了检索方法和知识图谱的优势，提供了详细和结构化的见解。它涵盖了广泛的技术及其应用，提供了一个综合的概述。这种方法之所以出色，是因为它集成了最近的具体数据与结构化知识，使用自然语言和通过元路径的节点关系链。因此，它提供了全面且准确的答案。
在获得检索结果并生成答案后，我们将使用GPT-4o (OpenAI，2024) 来评估语言模型使用这些结果生成的答案的质量。评估标准包括：

准确性 ：答案中提供的信息的正确性。
连贯性 ：答案的逻辑流畅性和清晰度。
全面性 ：答案是否涵盖了问题所需的尽可能多的方面。
通过应用这些评估标准，我们展示了不同检索系统在支持高质量答案生成方面的有效性。LLM-PKG方法（答案4）在所有指标上均优于其他方法。在准确性方面，它清楚地识别了特定的生物技术，如PrimeRoot系统、PASTE和dCas9-SSAP，并详细解释了其机制和对农业的潜在影响。这与仅讨论不相关生物技术的LLM-Base（答案1）形成对比，也不同于主要关注一般科学进展的LLM-VDB（答案2）和LLM-KG（答案3），后者未能具体针对新兴农业技术。
在连贯性方面，LLM-PKG提供了逻辑结构清晰、标题明确且简洁易懂的回答。相比之下，LLM-Base由于讨论了不相关的主题而缺乏连贯性，而LLM-VDB和LLM-KG未能直接回应原始问题，导致回答支离破碎。
最后，在全面性方面，LLM-PKG通过概述多种新兴生物技术、解释其在农业中的应用以及包括基因修饰和先进成像技术的细节脱颖而出。虽然LLM-VDB和LLM-KG提供的信息比LLM-Base更为详细，但仍缺乏更广泛的背景和组织清晰度。
5 结论与未来工作
本文介绍了伪知识图谱（PKG），这是一种检索增强生成（RAG）框架，旨在解决传统RAG系统在管理大规模知识库中复杂关系方面的局限性。PKG将结构化数据（知识图谱）和非结构化数据（图内文本块）集成在一起，以增强大型语言模型（LLMs）的检索能力。通过在图结构中保留自然语言文本，PKG使LLMs能够更有效地处理和解释检索到的信息，克服了其处理纯结构化数据的内在局限性。为了无缝集成PKG与LLMs，我们开发了一系列先进的检索方法，包括正则表达式检索、基于图的向量检索和元路径检索。这些方法共同提高了信息检索的语义理解和效率，确保检索结果与LLMs的理解和上下文意识紧密对齐。广泛的实验跨多个数据集和框架表明，PKG在需要复杂推理和多跳检索的任务中优于多个竞争性的基线模型和主流RAG方法。
展望未来，我们计划从几个方向进一步扩展PKG，以增强其能力和适用性：
多轮对话：我们旨在使PKG适应多轮对话交互，实现与用户的动态且上下文感知的对话。这将涉及开发机制以在多个查询和响应中保持上下文。
可扩展性和效率：随着知识库的不断增长，我们将专注于优化PKG的可扩展性和计算效率，特别是在实时应用和大规模部署中。
交互式知识探索：我们设想将PKG扩展到支持交互式知识探索，使用户能够通过自然语言查询直观地导航复杂的知识图谱并提取见解。

通过追求这些方向，我们旨在进一步提升PKG的能力，使其成为在通用和特定领域应用中增强LLMs的多功能且强大的工具。

Abdin, Marah, Jyoti Aneja, Hany Awadalla, et al. 2024. “Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone.” arXiv Preprint arXiv:2404.14219 [Cs.CL] . https://arxiv.org/abs/2404.14219 .

Abu-Rasheed, Hasan, Christian Weber, and Madjid Fathi. 2024. “Knowledge Graphs as Context Sources for LLM -Based Explanations of Learning Recommendations.” In IEEE Global Engineering Education Conference (EDUCON) , 1–5. Kos Island, Greece: IEEE.

Alkhaldi, Tareq Yaser Samih. 2023. “Studies on Question Answering in Open-Book and Closed-Book Settings.” {PhD} dissertation, Kyoto University.

Bai, Jinze, Shuai Bai, Yunfei Chu, et al. 2023. “Qwen Technical Report.” arXiv Preprint arXiv:2309.16609 [Cs.CL] . https://arxiv.org/abs/2309.16609 .

Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” In Proceedings of the 34th Conference on Neural Information Processing Systems (NeurIPS) . Red Hook, NY, USA: Curran Associates Inc.

Bruckhaus, Tilmann. 2024. “ RAG Does Not Work for Enterprises.” arXiv Preprint arXiv:2406.04369 [Cs.SE] . https://arxiv.org/abs/2406.04369 .

Buitrago, Paola A, and Nicholas A Nystrom. 2019. “ Open Compass : Accelerating the Adoption of AI in Open Research.” In Proceedings of the Practice and Experience in Advanced Research Computing (PEARC) , 1–9. New York, NY, USA: Association for Computing Machinery.

Burtsev, Mikhail, Martin Reeves, and Adam Job. 2023. “The Working Limitations of Large Language Models.” MIT Sloan Management Review 65 (1): 1–5.

Chang, Yupeng, Xu Wang, Jindong Wang, Yuan Wu, Linyi Yang, Kaijie Zhu, Hao Chen, et al. 2024. “A Survey on Evaluation of Large Language Models.” ACM Transactions on Intelligent Systems and Technology (TIST) 15 (3): 1–45.

Chen, Jiaoyan, Yuxia Geng, Zhuo Chen, Jeff Z Pan, Yuan He, Wen Zhang, Ian Horrocks, and Huajun Chen. 2023. “Zero-Shot and Few-Shot Learning with Knowledge Graphs: A Comprehensive Survey.” Proceedings of the IEEE 111 (6): 653–85.

Church, Kenneth Ward. 2017. “ Word2Vec .” Natural Language Engineering 23 (1): 155–62.

Cuconasu, Florin, Giovanni Trappolini, Federico Siciliano, Simone Filice, Cesare Campagnano, Yoelle Maarek, Nicola Tonellotto, and Fabrizio Silvestri. 2024. “The Power of Noise: Redefining Retrieval for RAG Systems.” In Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval , 719–29. New York, NY, USA: Association for Computing Machinery.

Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. “ BERT : Pre-Training of Deep Bidirectional Transformers for Language Understanding.” In Proceedings of 17th Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT) , 4171–86. Minneapolis, Minnesota: Association for Computational Linguistics.

Edge, Darren, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, and Jonathan Larson. 2024. “From Local to Global: A Graph RAG Approach to Query-Focused Summarization.” arXiv Preprint arXiv:2404.16130 [Cs.CL] . https://arxiv.org/abs/2404.16130 .

Elasticsearch, BV. 2018. “Elasticsearch.” Software], Version 6 (1).

Fensel, Dieter, Umutcan Şimşek, Kevin Angele, Elwin Huaman, Elias Kärle, Oleksandra Panasiuk, Ioan Toma, Jürgen Umbrich, and Alexander Wahler. 2020. “Introduction: What Is a Knowledge Graph?” In Knowledge Graphs: Methodology, Tools and Selected Use Cases , 1–10. Cham: Springer International Publishing.

Gao, Luyu, Xueguang Ma, Jimmy Lin, and Jamie Callan. 2022. “Precise Zero-Shot Dense Retrieval Without Relevance Labels.” arXiv Preprint arXiv:2212.10496 [Cs.IR] . https://arxiv.org/abs/2212.10496 .

———. 2023. “Precise Zero-Shot Dense Retrieval Without Relevance Labels.” In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) , 1762–77.

Guia, José, Valéria Gonçalves Soares, and Jorge Bernardino. 2017. “Graph Databases: Neo4j Analysis.” In International Conference on Enterprise Information Systems (ICEIS) , 351–56.

Guo, Zirui, Lianghao Xia, Yanhua Yu, Tu Ao, and Chao Huang. 2024. “ LightRAG : Simple and Fast Retrieval-Augmented Generation.” arXiv Preprint arXiv:2410.05779 [Cs.IR] . https://arxiv.org/abs/2410.05779 .

Hadi, Muhammad Usman, Rizwan Qureshi, Abbas Shah, Muhammad Irfan, Anas Zafar, Muhammad Bilal Shaikh, Naveed Akhtar, Jia Wu, Seyedali Mirjalili, et al. 2023. “A Survey on Large Language Models: Applications, Challenges, Limitations, and Practical Usage.” Authorea Preprints . TechRxiv:23589741; Authorea.

Hao, Xuejie, Zheng Ji, Xiuhong Li, Lizeyan Yin, Lu Liu, Meiying Sun, Qiang Liu, and Rongjin Yang. 2021. “Construction and Application of a Knowledge Graph.” Remote Sensing 13 (13): 2511.

Hasan, Md Arid, Maram Hasanain, Fatema Ahmad, Sahinur Absar Chowdhury, and Firoj Alam. 2024. “ NativQA : Multilingual Culturally-Aligned Natural Query for LLM s.” arXiv Preprint arXiv:2407.09823 [Cs.CL] . https://arxiv.org/abs/2407.09823 .

Hendrycks, Dan, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. 2021. “Measuring Massive Multitask Language Understanding.” In Proceedings of the International Conference on Learning Representations (ICLR) . Vienna, Austria: http://openreview.net.

Hong, Gumwon. 2005. “Relation Extraction Using Support Vector Machine.” In Proceedings of the Second International Joint Conference on Natural Language Processing (IJCNLP) , 366–77.

Huang, Haoxu, Fanqi Lin, Yingdong Hu, Shengjie Wang, and Yang Gao. 2024. “ CoPa : General Robotic Manipulation Through Spatial Constraints of Parts with Foundation Models.” arXiv Preprint arXiv:2403.08248 [Cs.RO] . https://arxiv.org/abs/2403.08248 .

Jiang, Zhengbao, Frank Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan, and Graham Neubig. 2023. “Active Retrieval Augmented Generation.” In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP) , 7969–92. Singapore: Association for Computational Linguistics.

Jing, Zhi, Yongye Su, and Yikun Han. 2024. “When Large Language Models Meet Vector Databases: A Survey.” arXiv Preprint arXiv:2402.01763 [Cs.DB] . https://arxiv.org/abs/2402.01763 .

Kaddour, Jean, Joshua Harris, Maximilian Mozes, Herbie Bradley, Roberta Raileanu, and Robert McHardy. 2023. “Challenges and Applications of Large Language Models.” arXiv Preprint arXiv:2307.10169 [Cs.CL] . https://arxiv.org/abs/2307.10169 .

Kejriwal, Mayank. 2022. “Knowledge Graphs: A Practical Review of the Research Landscape.” Information 13 (4): 161.

Lewis, Patrick, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, et al. 2020. “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.” Advances in Neural Information Processing Systems (NeurIPS) 33: 9459–74.

Li, Huayang, Yixuan Su, Deng Cai, Yan Wang, and Lemao Liu. 2022. “A Survey on Retrieval-Augmented Text Generation.” arXiv Preprint arXiv:2202.01110 [Cs.CL] . https://arxiv.org/abs/2202.01110 .

Liu, Yang. 2019. “Fine-Tune BERT for Extractive Summarization.” arXiv Preprint arXiv:1903.10318 [Cs.CL] . https://arxiv.org/abs/1903.10318 .

Meyer, Lars-Peter, Claus Stadler, Johannes Frey, Norman Radtke, Kurt Junghanns, Roy Meissner, Gordian Dziwis, Kirill Bulert, and Michael Martin. 2023. “ LLM -Assisted Knowledge Graph Engineering: Experiments with ChatGPT .” In Working Conference on Artificial Intelligence Development for a Resilient and Sustainable Tomorrow (AI Tomorrow) , 103–15.

Miller, Justin J. 2013. “Graph Database Applications and Concepts with Neo4j .” Proceedings of the Southern Association for Information Systems Conference (SAIS) 2324 (36): 141–47.

Minixhofer, Benjamin, Jonas Pfeiffer, and Ivan Vulić. 2023. “Where ’ s the Point? S elf-Supervised Multilingual Punctuation-Agnostic Sentence Segmentation.” In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL) , 7215–35. Toronto, Canada: Association for Computational Linguistics.

Nie, Yixin, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, and Douwe Kiela. 2020. “Adversarial NLI : A New Benchmark for Natural Language Understanding.” In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL) , 4885–4901. Online: Association for Computational Linguistics.

OpenAI. 2024. “ GPT-4 Technical Report.” arXiv Preprint arXiv:2303.08774 [Cs.CL] . https://arxiv.org/abs/2303.08774 .

Palmer, David D. 2000. “Tokenisation and Sentence Segmentation.” Handbook of Natural Language Processing , 11–35.

Pan, James Jie, Jianguo Wang, and Guoliang Li. 2024. “Vector Database Management Techniques and Systems.” In Companion of the International Conference on Management of Data (SIGMOD) , 597–604. New York, NY, USA: Association for Computing Machinery.

Pan, Jeff Z., Simon Razniewski, Jan-Christoph Kalo, Sneha Singhania, Jiaoyan Chen, Stefan Dietze, Hajira Jabeen, et al. 2023. “Large Language Models and Knowledge Graphs: Opportunities and Challenges.” arXiv Preprint arXiv:2308.06374 [Cs.AI] . https://arxiv.org/abs/2308.06374 .

Pan, Shirui, Linhao Luo, Yufei Wang, Chen Chen, Jiapu Wang, and Xindong Wu. 2024. “Unifying Large Language Models and Knowledge Graphs: A Roadmap.” IEEE Transactions on Knowledge and Data Engineering (TKDE) 36 (7): 3580–99.

Patil, Nita, Ajay Patil, and BV Pawar. 2020. “Named Entity Recognition Using Conditional Random Fields.” Procedia Computer Science 167: 1181–88.

Peng, Fuchun, and Andrew McCallum. 2006. “Information Extraction from Research Papers Using Conditional Random Fields.” Information Processing & Management 42 (4): 963–79.

Pennington, Jeffrey, Richard Socher, and Christopher D Manning. 2014. “ GloVe : Global Vectors for Word Representation.” In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP) , 1532–43. Doha, Qatar: Association for Computational Linguistics.

Radford, Alec, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. “Improving Language Understanding by Generative Pre-Training.” https://openai.com/index/language-unsupervised/ .

Radford, Alec, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. 2019. “Language Models Are Unsupervised Multitask Learners.” OpenAI Blog 1 (8): 9.

Raulji, Jaideepsinh K, and Jatinderkumar R Saini. 2016. “Stop-Word Removal Algorithm and Its Implementation for Sanskrit Language.” International Journal of Computer Applications (IJCA) 150 (2): 15–17.

Reinanda, Ridho, Edgar Meij, and Maarten de Rijke. 2020. “Knowledge Graphs: An Information Retrieval Perspective.” Foundations and Trends in Information Retrieval 14 (4): 289–444.

Ritter, Daniel, Luigi Dell’Aquila, Andrii Lomakin, and Emanuele Tagliaferri. 2021. “ OrientDB : A NoSQL , Open Source MMDMS .” In Proceedings of the the British International Conference on Databases (BICOD) , 10–19. London, United Kingdom: CEUR Workshop Proceedings.

Sachan, Devendra, Mike Lewis, Mandar Joshi, Armen Aghajanyan, Wen-tau Yih, Joelle Pineau, and Luke Zettlemoyer. 2022. “Improving Passage Retrieval with Zero-Shot Question Generation.” In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP) , 3781–97. Abu Dhabi, United Arab Emirates: Association for Computational Linguistics.

Salemi, Alireza, and Hamed Zamani. 2024. “Evaluating Retrieval Quality in Retrieval-Augmented Generation.” In Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval , 2395–2400. New York, NY, USA: Association for Computing Machinery.

Sarawagi, Sunita, and William W Cohen. 2004. “Semi- Markov Conditional Random Fields for Information Extraction.” In Advances in Neural Information Processing Systems (NIPS) , 17:1185–92. Cambridge, MA, USA: MIT Press.

Sato, Makoto, and Hiroshi Tsukimoto. 2001. “Rule Extraction from Neural Networks via Decision Tree Induction.” In Proceedings of the International Joint Conference on Neural Networks (IJCNN) , 3:1870–75.

Scheffer, Tobias, Christian Decomain, and Stefan Wrobel. 2001. “Active Hidden Markov Models for Information Extraction.” In International Symposium on Intelligent Data Analysis (IDA) , 309–18.

Shu, Dong, Tianle Chen, Mingyu Jin, Yiting Zhang, Mengnan Du, and Yongfeng Zhang. 2024. “Knowledge Graph Large Language Model ( KG-LLM ) for Link Prediction.” arXiv Preprint arXiv:2403.07311 [Cs.CL] . https://arxiv.org/abs/2403.07311 .

Silva, Catarina, and Bernardete Ribeiro. 2003. “The Importance of Stop Word Removal on Recall Values in Text Categorization.” In Proceedings of the International Joint Conference on Neural Networks (IJCNN) , 3:1661–66. Portland, OR, USA: IEEE.

Siriwardhana, Shamane, Rivindu Weerasekera, Elliott Wen, Tharindu Kaluarachchi, Rajib Rana, and Suranga Nanayakkara. 2023. “Improving the Domain Adaptation of Retrieval Augmented Generation ( RAG ) Models for Open Domain Question Answering.” Transactions of the Association for Computational Linguistics (TACL) 11: 1–17.

Song, Yisheng, Ting Wang, Puyu Cai, Subrota K Mondal, and Jyoti Prakash Sahoo. 2023. “A Comprehensive Survey of Few-Shot Learning: Evolution, Applications, Challenges, and Opportunities.” ACM Computing Surveys ( CSUR ) 55 (13s): 1–40.

Sui, Yuan, Mengyu Zhou, Mingjie Zhou, Shi Han, and Dongmei Zhang. 2024. “Table Meets LLM : Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study.” In Proceedings of the 17th ACM International Conference on Web Search and Data Mining (WSDM) , 645–54. New York, NY, USA: Association for Computing Machinery.

Sun, Weiwei, Lingyong Yan, Xinyu Ma, Shuaiqiang Wang, Pengjie Ren, Zhumin Chen, Dawei Yin, and Zhaochun Ren. 2023. “Is C hat GPT Good at Search? I nvestigating Large Language Models as Re-Ranking Agents.” In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP) , 14918–37. Singapore: Association for Computational Linguistics.

Sun, Yu, Shuohuan Wang, Shikun Feng, et al. 2021. “ ERNIE 3.0: Large-Scale Knowledge Enhanced Pre-Training for Language Understanding and Generation.” arXiv Preprint arXiv:2107.02137 [Cs.CL] . https://arxiv.org/abs/2107.02137 .

Talmor, Alon, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant. 2019. “ C ommonsense QA : A Question Answering Challenge Targeting Commonsense Knowledge.” In Proceedings of the Conference of the North A merican Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT) , 4149–58. Minneapolis, Minnesota: Association for Computational Linguistics.

Tamkin, Alex, Miles Brundage, Jack Clark, and Deep Ganguli. 2021. “Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models.” arXiv Preprint arXiv:2102.02503 [Cs.CL] . https://arxiv.org/abs/2102.02503 .

Tang, Yixuan, and Yi Yang. 2024. “ MultiHop-RAG : Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries.” arXiv Preprint arXiv:2401.15391 [Cs.CL] . https://arxiv.org/abs/2401.15391 .

Team GLM. 2024. “ ChatGLM : A Family of Large Language Models from GLM-130B to GLM-4 All Tools.” arXiv Preprint arXiv:2406.12793 [Cs.CL] . https://arxiv.org/abs/2406.12793 .

Tesoriero, Claudio. 2013. Getting Started with OrientDB . Packt Publishing Birmingham, England.

Touvron, Hugo, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière，et al. 2023. “ LLaMA : Open and Efficient Foundation Language Models.” arXiv Preprint arXiv:2302.13971 [Cs.CL] . https://arxiv.org/abs/2302.13971 .

Wang, Haifeng, Jiwei Li, Hua Wu, Eduard Hovy, and Yu Sun. 2023. “Pre-Trained Language Models and Their Applications.” Engineering 25: 51–65.

Wang, Shuai, Ekaterina Khramtsova, Shengyao Zhuang, and Guido Zuccon. 2024. “ FeB4RAG : Evaluating Federated Search in the Context of Retrieval Augmented Generation.” In Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval , 763–73. New York, NY, USA: Association for Computing Machinery.

Wang, Yaqing, Quanming Yao, James T Kwok, and Lionel M Ni. 2020. “Generalizing from a Few Examples: A Survey on Few-Shot Learning.” ACM Computing Surveys ( CSUR ) 53 (3): 1–34.

Washio, Koki, and Tsuneaki Kato. 2018. “Filling Missing Paths: Modeling Co-Occurrences of Word Pairs and Dependency Paths for Recognizing Lexical Semantic Relations.” In Proceedings of the 2018 Conference of the North A merican Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT) , 1123–33. New Orleans, Louisiana: Association for Computational Linguistics.

Wei, Jason, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, et al. 2022. “Emergent Abilities of Large Language Models.” Transactions on Machine Learning Research (TMLR) .

Yang, Qiang, Jie Yin, Charles Ling, and Rong Pan. 2006. “Extracting Actionable Knowledge from Decision Trees.” IEEE Transactions on Knowledge and Data Engineering (TKDE) 19 (1): 43–56.

Yang, Zhilin, Peng Qi, Saizheng Zhang, Yoshua Bengio, William Cohen, Ruslan Salakhutdinov, and Christopher D. Manning. 2018. “ H otpot QA : A Dataset for Diverse, Explainable Multi-Hop Question Answering.” In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP) , 2369–80.

Yasunaga, Michihiro, Hongyu Ren, Antoine Bosselut, Percy Liang, and Jure Leskovec. 2021. “ QA - GNN : Reasoning with Language Models and Knowledge Graphs for Question Answering.” In Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT) , 535–46. Online: Association for Computational Linguistics.

Zhai, ChengXiang. 2008. “Statistical Language Models for Information Retrieval a Critical Review.” Foundations and Trends in Information Retrieval 2 (3): 137–213.

Zhang, Bowen, and Harold Soh. 2024. “Extract, Define, Canonicalize: An LLM -Based Framework for Knowledge Graph Construction.” In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP) , 9820–36. Miami, Florida, USA: Association for Computational Linguistics.

Zhang, Meihui, Zhaoxuan Ji, Zhaojing Luo, Yuncheng Wu, and Chengliang Chai. 2024. “Applications and Challenges for Large Language Models: From Data Management Perspective.” In IEEE 40th International Conference on Data Engineering (ICDE) , 5530–41. Utrecht, Netherlands: IEEE.

Zhang, Mingtao, Guoli Yang, Yi Liu, Jing Shi, and Xiaoying Bai. 2024. “Knowledge Graph Accuracy Evaluation: An LLM -Enhanced Embedding Approach.” International Journal of Data Science and Analytics (JDSA) , 1–15.

Zhao, Wayne Xin, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, et al. 2024. “A Survey of Large Language Models.” arXiv Preprint arXiv:2303.18223 [Cs.CL] . https://arxiv.org/abs/2303.18223 .

Zhao, Xinyang, Xuanhe Zhou, and Guoliang Li. 2024. “ Chat2Data : An Interactive Data Analysis System with RAG , Vector Databases and LLMs .” Proc. VLDB Endow 17 (12): 4481–84.

Zhong, Ming, Pengfei Liu, Yiran Chen, Danqing Wang, Xipeng Qiu, and Xuanjing Huang. 2020. “Extractive Summarization as Text Matching.” In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL) , 6197–6208. Online: Association for Computational Linguistics.

Zhong, Wanjun, Ruixiang Cui, Yiduo Guo, Yaobo Liang, Shuai Lu, Yanlin Wang, Amin Saied, Weizhu Chen, and Nan Duan. 2023. “ AGIEval : A Human-Centric Benchmark for Evaluating Foundation Models.” arXiv Preprint arXiv:2304.06364 [Cs.CL] . https://arxiv.org/abs/2304.06364 .

Zou, Xiaohan. 2020. “A Survey on Application of Knowledge Graph.” Journal of Physics: Conference Series 1487 (1): 012016.

This work is licensed under the Creative Commons BY-NC-ND 4.0 International License. Visit https://creativecommons.org/licenses/by-nc-nd/4.0/ to view a copy of this license. For any use beyond those covered by this license, obtain permission by emailing info@vldb.org . Copyright is held by the owner/author(s). Publication rights licensed to the VLDB Endowment.