LLM+KG | 利用大模型做开放知识图谱构建及DOGE多模态文档定位_通过大模型建立政策文件知识图谱-CSDN博客

本文链接：https://blog.csdn.net/m0_56255097/article/details/144370290

一、利用大模型判别能力做开放知识图谱构建

《Can LLMs be Good Graph Judger for Knowledge Graph Construction?》(https://arxiv.org/pdf/2411.17388)，提出GraphJudger框架来提高KG构建的质量，注意：这个工作与之前schema-based的抽取不同，做的事schema-free的抽取，属于openIE的范畴。

如下图所示，其做的更像是一种SPO(subjec,predicate, object)的三元组抽取方式，如下图所示，给定一个文档，然后要去输出文档中存在的三元组集合：

但是，其中的问题在于，现实文档中存在大量信息和噪声，导致提取的信息混乱；LLMs在处理某些领域特定文档时难以准确提取知识；直接使用LLMs作为无监督方法构建KG时容易出现幻觉现象。

例如，下面这个例子：

原始文档显示在左侧，而右侧展示了构建的知识图谱以及一些失败案例。用红色高亮显示的三元组因存在噪声信息而被错误地制定，蓝色高亮的三元组缺乏领域知识，绿色高亮的三元组是LLMs产生幻觉的结果。

那么，如何解决这个问题？也就是提出的GraphJudger框架，核心就是去燥+微调+过滤。

一个是文本去噪，通过迭代方式清理原始文档，消除冗余词汇和相关信息，提取实体和关系。初始迭代中，使用LLM从原始文档中提取实体，然后输入这些实体和原始文档到LLM中生成去噪文档。在后续迭代中，使用前一轮的去噪文档继续提取实体和进一步去噪。但这块容易生成错误。

一个是抽取微调，通过指令调优使开源LLM成为图判断专家，增强其对一般逻辑原则和领域特定知识的理解。通过构建指令数据集并进行监督微调，LLM能够识别出符合逻辑结构和领域知识的三元组。

一个是判断过滤，使用微调后的开源LLM对生成的草图KG中的三元组进行判断，过滤掉错误的三元组，最终提高KG的质量。

二、多模态文档问答的一个有趣任务DOGE

关于多模态文档理解这块，目前已经有UReader、TextMonkey、Kosmos2、Shikra、Ferret、mPLUG-1.5、Kosmos-2.5、Fox等多个模型。我们继续来看这个工作，《DOGE: Towards Versatile Visual Document Grounding and Referring》，主要用于多模态文档中的文本定位和引用，也就是文档VQA，https://arxiv.org/pdf/2411.17125v1，提出了DOGE-Engine和DOGE-Bench，用于评估多模态大型语言模型（MLLMs）在视觉文档理解中的定位和指代能力。

有几个点可以看：

一个是DOGE-Engine，实现方式如下，很常规的多模态理解模型：

一个是多粒度解析数据，包括海报、图表和PDF文档的单词、短语、行、段落和全页级别的文本框标注，其中提到的两个策略可看看：

Figure 3 描述了 DOGE 项目中用于生成精确文本定位数据的两种策略：Re-rendering Strategy（重渲染策略）和 Merge Strategy（合并策略）。这两种策略分别用于海报与图表数据以及 PDF 文档数据的文本定位和解析。下面是对这两种策略的详细解读：

一种是Re-rendering Strategy（重渲染策略），用于海报（poster）和图表（chart）数据，自动获取精确的文本边界框（bounding boxes）。在实现上，首先使用元数据（metaannotation）重新渲染海报或图表，包括文本块及其对应的边界框->修改一个文本块的颜色或透明度属性，并执行重新渲染->由于前两步的渲染结果除了修改的属性外是相同的，通过像素级相减可以得到目标文本块的图像->重复上述步骤，可以为所有文本块获得精确的边界框，并将其标准化以创建最终的注释。

另一种是Merge Strategy（合并策略），用于PDF文档数据，结合MinerU和PyMuPDF的标注，获得全面且具有布局意识的全页解析注释。在实现上，首先，比较有序和无序的文本块，消除重复的文本块。对于截断的文本块，用无序映射中的相应完整块替换，以提高块内的语义完整性->在有序映射中，如果两个连续的块从左上到右下排列，构建一个有序区域。将无序映射中保留的块分类为区域内块和区域外块->将区域内块插入有序区域，并使用列优先顺序依次更新每个有序区域内的块顺序->对于区域外块，将它们插入有序映射。这些块的顺序根据它们与最近有序块的位置关系来确定，遵循列优先顺序。这种方法结合了 MinerU 的布局检测模型和 PyMuPDF 的全面内容提取能力，通过合并策略，可以更好地理解和处理 PDF 文档中的复杂布局和内容。