LLM+KG | 利用大模型做开放知识图谱构建及DOGE多模态文档定位

一、利用大模型判别能力做开放知识图谱构建

《Can LLMs be Good Graph Judger for Knowledge Graph Construction?》(https://arxiv.org/pdf/2411.17388),提出GraphJudger框架来提高KG构建的质量,注意:这个工作与之前schema-based的抽取不同,做的事schema-free的抽取,属于openIE的范畴

如下图所示,其做的更像是一种SPO(subjec,predicate, object)的三元组抽取方式,如下图所示,给定一个文档,然后要去输出文档中存在的三元组集合:

但是,其中的问题在于,现实文档中存在大量信息和噪声,导致提取的信息混乱;LLMs在处理某些领域特定文档时难以准确提取知识;直接使用LLMs作为无监督方法构建KG时容易出现幻觉现象。

例如,下面这个例子:

原始文档显示在左侧,而右侧展示了构建的知识图谱以及一些失败案例。用红色高亮显示的三元组因存在噪声信息而被错误地制定,蓝色高亮的三元组缺乏领域知识,绿色高亮的三元组是LLMs产生幻觉的结果。

那么,如何解决这个问题?也就是提出的GraphJudger框架,核心就是去燥+微调+过滤。

一个是文本去噪,通过迭代方式清理原始文档,消除冗余词汇和相关信息,提取实体和关系。初始迭代中,使用LLM从原始文档中提取实体,然后输入这些实体和原始文档到LLM中生成去噪文档。在后续迭代中,使用前一轮的去噪文档继续提取实体和进一步去噪。但这块容易生成错误。

一个是抽取微调,通过指令调优使开源LLM成为图判断专家,增强其对一般逻辑原则和领域特定知识的理解。通过构建指令数据集并进行监督微调,LLM能够识别出符合逻辑结构和领域知识的三元组。

一个是判断过滤,使用微调后的开源LLM对生成的草图KG中的三元组进行判断,过滤掉错误的三元组,最终提高KG的质量。

二、多模态文档问答的一个有趣任务DOGE

关于多模态文档理解这块,目前已经有UReader、TextMonkey、Kosmos2、Shikra、Ferret、mPLUG-1.5、Kosmos-2.5、Fox等多个模型。我们继续来看这个工作,《DOGE: Towards Versatile Visual Document Grounding and Referring》,主要用于多模态文档中的文本定位和引用,也就是文档VQA,https://arxiv.org/pdf/2411.17125v1,提出了DOGE-Engine和DOGE-Bench,用于评估多模态大型语言模型(MLLMs)在视觉文档理解中的定位指代能力。

有几个点可以看:

一个是DOGE-Engine,实现方式如下,很常规的多模态理解模型:

一个是多粒度解析数据,包括海报、图表和PDF文档的单词、短语、行、段落和全页级别的文本框标注,其中提到的两个策略可看看:

Figure 3 描述了 DOGE 项目中用于生成精确文本定位数据的两种策略:Re-rendering Strategy(重渲染策略)和 Merge Strategy(合并策略)。这两种策略分别用于海报与图表数据以及 PDF 文档数据的文本定位和解析。下面是对这两种策略的详细解读:

一种是Re-rendering Strategy(重渲染策略),用于海报(poster)和图表(chart)数据,自动获取精确的文本边界框(bounding boxes)。在实现上,首先使用元数据(metaannotation)重新渲染海报或图表,包括文本块及其对应的边界框->修改一个文本块的颜色或透明度属性,并执行重新渲染->由于前两步的渲染结果除了修改的属性外是相同的,通过像素级相减可以得到目标文本块的图像->重复上述步骤,可以为所有文本块获得精确的边界框,并将其标准化以创建最终的注释。

另一种是Merge Strategy(合并策略),用于PDF文档数据,结合MinerU和PyMuPDF的标注,获得全面且具有布局意识的全页解析注释。在实现上,首先,比较有序和无序的文本块,消除重复的文本块。对于截断的文本块,用无序映射中的相应完整块替换,以提高块内的语义完整性->在有序映射中,如果两个连续的块从左上到右下排列,构建一个有序区域。将无序映射中保留的块分类为区域内块和区域外块->将区域内块插入有序区域,并使用列优先顺序依次更新每个有序区域内的块顺序->对于区域外块,将它们插入有序映射。这些块的顺序根据它们与最近有序块的位置关系来确定,遵循列优先顺序。这种方法结合了 MinerU 的布局检测模型和 PyMuPDF 的全面内容提取能力,通过合并策略,可以更好地理解和处理 PDF 文档中的复杂布局和内容。

一个是指令微调数据,基于多粒度解析数据,使用GPT-4o生成多样化格式的指令调优数据,涵盖问题回答、摘要和推理任务,里面提到的任务很有趣,包括以下几个任务:

如图中展示了DOGE模型在DOGE-Bench中对三种任务的推理结果;

Grounding Tasks:模型能够识别并定位文档中的具体信息,如图中可能展示了模型如何定位问题中提到的特定数据或文本;

Grounding-and-Referring Tasks:模型不仅要定位信息,还要理解这些信息在文档中的上下文关系,如图中可能展示了模型如何结合文档内容和用户指定的区域来提供答案;

Referring Tasks:模型需要理解用户指定的文档区域,并提供准确的文本内容或相关信息,如图中可能展示了模型如何根据用户的选择来生成描述或总结。

参考文献

1、https://arxiv.org/pdf/2411.17388
2、https://arxiv.org/pdf/2411.17125v1

最后分享

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值