摘要
随着基于知识图谱的检索增强生成(RAG)技术如GraphRAG和Pike-RAG的兴起,知识图谱在提升大型语言模型(LLMs)推理能力方面的作用日益凸显。然而,传统的知识图谱构建(KGC)方法面临复杂实体消歧、严格模式定义和跨文档知识整合不足等挑战。本文聚焦于自动文档级知识图谱构建任务。提出了一种文档级检索增强知识图谱构建(RAKG)框架。RAKG从文本块中提取预实体,并利用这些预实体作为RAG的查询,有效解决了LLMs中的长上下文遗忘问题,并降低了共指消解的复杂性。与传统的KGC方法相比,RAKG更有效地捕捉全局信息和不同节点间的相互联系,从而提升了模型的整体性能。此外,我们将RAG评估框架转移到KGC领域,对生成的知识图谱进行过滤和评估,从而避免了LLMs中因幻觉导致的错误生成实体和关系。我们通过为每篇文章构建标准的知识图谱,进一步开发了MINE数据集,并通过实验验证了RAKG的效能。结果显示,RAKG在MINE数据集上达到了95.91%的准确率,相较于当前最优基线GraphRAG(89.71%)提升了6.2个百分点。代码可在 https://github.com/LMMApplication/RAKG 获取。
核心速览
研究背景
- 研究问题
:这篇文章要解决的问题是如何自动构建文档级别的知识图谱(Knowledge Graph, KG)。传统的知识图谱构建(KGC)方法面临复杂实体消歧、刚性模式定义和跨文档知识整合不足的挑战。
- 研究难点
:该问题的研究难点包括:长文本处理中的长距离遗忘问题、实体消歧的复杂性以及跨文档知识整合的不足。
- 相关工作
:传统方法如基于规则的方法成本高、灵活性差,难以适应新领域。机器学习方法依赖于复杂的特征工程和大量标注数据,模型性能受数据质量和分布变化影响大。统计方法计算复杂度高,对数据稀疏性敏感。现有的LLM驱动方法如SAC-KG和KGGen的有效性尚待验证,且缺乏统一的评估指标。
研究方法
这篇论文提出了文档级别检索增强知识图谱构建(RAKG)框架,用于解决文档级别知识图谱构建的问题。具体来说,
- 知识图谱向量化
首先,将文档分块并向量化
- 预实体构建
对分块文本进行命名实体识别(NER),识别出初步实体并向量化,每个预实体被赋予类型和描述属性,并进行实体消歧,最终得到消歧后的实体集合。
- 关系网络构建
通过语料库回顾检索和图结构检索获取相关文本和关系网络,将检索到的文本和关系网络输入LLM生成关系网络。
- 知识图谱融合
合并新知识图谱中的实体和关系,确保与初始知识图谱的一致性。
实验设计
- 数据集
:使用MINE数据集,包含105篇文章,每篇文章约1000字,覆盖历史、艺术、科学、伦理和心理等多个领域。使用LLM生成这些文章,并手动验证每个事实的准确性和相关性。
- 基线模型
:包括KGGen和GraphRAG。KGGen是一个开源工具,利用先进语言模型和聚类算法将非结构化文本数据转换为结构化的实体和关系网络。GraphRAG是一种基于图的检索增强生成框架,旨在克服传统RAG方法的局限性。
- 评估指标
:包括实体密度(ED)、关系丰富度(RR)、实体忠实度(EF)、关系忠实度(RF)、准确率(accuracy)、实体覆盖率(EC)和关系网络相似度(RNS)。
结果与分析
-
准确率:RAKG在准确率上显著优于基线模型,表明其构建的知识图谱在语义信息提取方面具有更强的能力。
-
实体密度和关系丰富度:RAKG在实体密度和关系丰富度上也表现出色,表明其能够识别和整合更丰富的实体信息和复杂的关系网络。
-
实体覆盖率和关系网络相似度:RAKG在实体覆盖率和关系网络相似度上均显著高于其他模型,表明其在知识图谱构建的全面性和准确性方面具有优势。
-
模型稳定性:RAKG在生成知识图谱时表现出极高的稳定性,即使在LLM产生少量虚假节点或关系的情况下,也能通过“LLM作为评判者”机制有效识别和消除这些错误。
案例研究
在案例研究中,我们使用了题为《蝴蝶的生命周期The Life Cycle of a Butterfly》的文章作为应用场景,以比较RAKG框架与基线模型的性能,如图6所示。RAKG的命名实体识别模块在文章中检测到23个核心实体,“蝴蝶卵”、“毛毛虫”和“成年蝴蝶”是中心实体。这些实体在文章中有密集的文本块,表示关键概念。以“成年蝴蝶”为例,我们检索了描述五个特征的专业文本片段。我们还通过图结构检索从原始知识图谱中获取了与“成年蝴蝶”相关的子图。经过命名实体识别、语料库回顾检索和图结构检索之后,我们将每个实体的文本块与其子图进行了整合。这些整合的数据被输入到一个大型语言模型(LLM)中以构建关系网络。该LLM分析文本块和子图,生成特定实体的关系网络,形成完整的子图。通过整合所有子图,我们构建了一个系统、结构化的知识图谱,清晰地展示了文章的核心概念及其关系。
为了进一步评估RAKG框架的性能,我们将其生成的知识图谱与基线模型的结果进行比较。结果显示,由RAKG构建的知识图谱具有更高的EC(经验复杂性)和RMS(均方根误差),使其最接近理想的知识图谱。例如,关注实体“成年蝴蝶”的关系网络,RAKG检索到如下段落:“成年蝴蝶用它们的长管状口器——喙,从花朵中吸取花蜜。它们在传粉中起着至关重要的作用,通过将花粉从一个花朵传到另一个花朵,帮助植物繁殖。”由此得出结论,成年蝴蝶有助于传粉。
导致三重关系“成虫蝴蝶”-“有助于”-“授粉”。这表明RAKG能够更全面地捕捉蝴蝶不同生活阶段所涉及的各种实体之间的复杂关系。
总体结论
本文提出了一种新颖的文档级别知识图谱构建框架RAKG,能够直接将文档语料库转换为知识图谱。RAKG采用基于预实体的渐进式知识提取方法,有效减少了实体消歧的复杂性,规避了LLMs的长距离遗忘问题,并在拓扑结构覆盖和关系网络对齐方面实现了接近完美的性能。与现有最先进的方法相比,RAKG展示了其在知识图谱构建中的有效性,具有广泛的应用前景。
论文评价
优点与创新
- 全面的端到端解决方案
:RAKG提供了一个全面的端到端解决方案,用于从文档构建知识图谱,涵盖了整个过程,并比传统增强框架更加注重上下文信息。
- 渐进式知识提取方法
:RAKG引入了基于预实体的渐进式知识提取方法,这些预实体作为中间表示单元,基于它们进行信息集成,有效缓解了实体消歧的复杂性,并规避了LLMs的长距离遗忘问题。
- 引入RAG评估框架
:在知识图谱质量评估中,RAKG首次将RAG评估框架引入知识图谱构建领域,并开发了标准知识图谱及其相应的评估方法,从而促进了构建的知识图谱质量的实践评估。
- 高性能
:在MINE数据集上的实验结果表明,RAKG在准确性方面达到了95.91%,比当前最好的基线GraphRAG(89.71%)提高了6.2个百分点。
- 开源代码
:相关代码已开源,社区可以免费使用,有助于推动相关领域的发展。
不足与反思
- 局限性
:论文中没有明确提到具体的局限性,但可以推测在处理某些特定领域或长文本时,RAKG可能仍需进一步优化和调整。
- 下一步工作
:论文没有详细讨论下一步工作,但未来的研究可以考虑进一步优化知识图谱的构建过程,特别是在处理复杂关系和长距离依赖方面,以进一步提升模型的性能和鲁棒性。
关键问题及回答
问题1:RAKG框架在处理长文本时如何缓解长距离遗忘问题?
RAKG框架通过引入预实体(pre-entities)的概念来缓解长距离遗忘问题。预实体是从文本块中识别出的初步实体,这些实体作为中间表示单元,用于信息集成。具体步骤包括:
- 命名实体识别(NER)
:对分块文本进行逐句命名实体识别,识别出初步实体。
- 预实体向量表示
:将识别出的预实体赋予类型和描述属性,并进行向量表示。
- 信息集成
:基于预实体进行信息集成,减少长距离遗忘问题,提高知识图谱的构建质量。
这种方法有效地缓解了LLMs在处理长文本时的长距离遗忘问题,提高了知识图谱的构建质量。
问题2:RAKG框架在知识图谱构建中如何确保实体和关系的准确性?
RAKG框架引入了RAG(检索增强生成)评估框架来确保构建的知识图谱的准确性和真实性。具体方法包括:
- 语料库回顾检索
:通过检索与指定实体相关的文本段,获取多视角语义信息,输入LLM生成关系网络。
- 图结构检索
:从初始知识图中检索与指定实体相关的信息,并将其整合到LLM的输入中。
- LLM评估
:使用LLM评估生成的三元组的真实性,确保实体和关系的准确性。LLM会判断生成的三元组是否严格遵循原文本的内容框架和语义逻辑。
通过这种双评估机制,RAKG框架能够有效消除由于LLMs的潜在幻觉而产生的虚假节点和关系,从而提高知识图谱的质量和可靠性。
问题3:RAKG框架在实验中如何验证其性能,使用了哪些评估指标?
RAKG框架在实验中使用了多个评估指标来验证其性能,包括:
- 实体密度(ED)
:衡量知识图谱中实体的数量。
- 关系丰富度(RR)
:衡量知识图谱中关系的复杂性。
- 实体忠实度(EF)
:使用LLM评估每个提取实体的真实性。
- 关系忠实度(RF)
:使用LLM评估每个提取关系的真实性。
- 准确率
:通过在MINE数据集上进行问答任务来衡量知识图谱的语义信息提取能力。
- 实体覆盖率(EC)
:衡量知识图谱中实体与标准知识图谱中实体的匹配程度。
- 关系网络相似度(RNS)
:衡量知识图谱中关系网络的相似性。
通过这些评估指标,RAKG框架在不同主题和领域的实验中展示了其优越的性能,显著优于现有的基线模型。
一、大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
二、如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
* 大模型 AI 能干什么?
* 大模型是怎样获得「智能」的?
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例:向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示(Embeddings)
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2:手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身:基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例:如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】