源码角度解读RAKG文档级图谱构建框架RAKG及Demo级多模态RAG-NoOCR

最新推荐文章于 2025-06-04 00:15:00 发布

AI大模型-派大星

最新推荐文章于 2025-06-04 00:15:00 发布

阅读量968

点赞数 22

文章标签：人工智能 AI大模型语言模型 RAG agi LLM ai

本文链接：https://blog.csdn.net/2401_85327249/article/details/147551230

版权

前言

本文来看两个问题：

一个是RAG用于文档级别图谱构建框架RAKG拆解，从架构和代码拆解两个方面来看，看具体实现。

另一个是多模态RAG小Demo之NoOCR实现拆解，看看响亮口号之下是如何简陋的实现，这样能够加深印象，从代码出发理解会更加具象化。

抓住根本问题，做根因，专题化，体系化，会有更多深度思考。大家一起加油。

一、RAG用于文档级别图谱构建框架-RAKG拆解

先看RAG用于图谱构建，文档级别检索增强知识图谱构建（RAKG）框架，《RAKG:Document-level Retrieval Augmented Knowledge Graph Construction》，https://arxiv.org/pdf/2504.09823，代码地址在：https://github.com/LMMApplication/RAKG

先来看一个具体的例子，文档中不同颜色代表涉及的不同实体。文档被分割并生成了预实体，例如蝴蝶、毛毛虫和蝴蝶卵。

以蝴蝶为例，从文本语料库中检索相关文本，并从现有的知识图谱中检索相关节点，在整合信息后，大型语言模型（LLM）提取出以蝴蝶为中心的知识图谱。最后，这些知识图谱被整合在一起。

那么，具体是如何做的？可以看如下的流程图。

对应的代码在：https://github.com/LMMApplication/RAKG/blob/main/src/construct/RAKG.py

拆解出来的思路如下：

1、通过对文档进行句子分割和向量化处理

首先，将文档分块并向量化，T=DocSplit(D)。其中，T表示分块后的文本，DocSplit函数根据语义完整性进行动态分块。这个说的语义完整性，使用的很粗暴，https://github.com/LMMApplication/RAKG/blob/main/src/textPrcess.py，就是按照标点符号这些做的。

2、提取初步实体对分块文本进行命名实体识别（NER），并分配类型和描述属性。这块的prompt在：https://github.com/LMMApplication/RAKG/blob/main/src/prompt.py

3、对识别的实体进行消歧，形成最终的相似实体集。

这里也是使用prompt完成，在https://github.com/LMMApplication/RAKG/blob/main/src/prompt.py

4、进行实体向量化，使用BGE-M3模型对每个分块进行向量化处理。

5、检索实体相关网络、上下文。处理后的实体会经过语料库回顾检索（Corpus Retrospective Retrieval）以获取相关文本，以及图结构检索（Graph Structure Retrieval）以获取相关文本和关系网络，然后送入LLM生成中心实体的属性和关系，这里对应的prompt如下：

6、将新构建的知识图谱与原始知识图谱进行整合，合并新知识图谱中的实体和关系。这个地址在：https://github.com/LMMApplication/RAKG/blob/main/src/kgAgent.py#L294

核心就是走了2道，陆续合并实体和实体关系。

二、多模态RAG小Demo之NoOCR实现拆解

超demo级别多模态文档RAG。NoOCR(https://github.com/kyryl-opens-ml/no-ocr)，slogan喊的很响，只需上传PDF文件，即可快速搜索或询问关于多个文档集合中的内容，无需依赖传统OCR技术，大大提升文档分析效率【其实一点都不大】，就是pdf切页面，转embedding，根据query召回后送多模态模型做vqa，结束。