📝 摘要
在当今时代,大量的数据以非结构化形式存在,这给我们获取有价值信息带来了巨大挑战。自动构建知识图谱(Knowledge Graphs, KGs)对于结构化数据并使其可访问至关重要,这不仅能让用户有效地搜索信息,还能促进洞察、推理和推断。
传统的自然语言处理(NLP)方法,如命名实体识别和关系抽取,在信息检索中发挥着关键作用,但也面临着一些局限性。这些局限性包括使用预定义的实体类型以及对监督学习的依赖。
目前的研究正在利用大型语言模型(Large Language Models, LLMs)的能力,如零样本或少样本学习。然而,未解决的语义重复实体和关系仍然构成挑战,导致图谱不一致,需要大量的后处理。此外,大多数方法都依赖于特定主题。
在本文中,我们提出了iText2KG,这是一种增量式、主题无关的知识图谱构建方法,无需后处理。这种即插即用的零样本方法适用于广泛的知识图谱构建场景,由四个模块组成:文档提炼器、增量实体提取器、增量关系提取器以及图谱集成与可视化。我们的方法在三种场景下(将科学论文转换为图谱、网站转换为图谱和简历转换为图谱)均表现出优于基线方法的性能。
🔑 关键词:知识图谱构建、大型语言模型、自然语言处理
🌟 1. 引言
在当今时代,大多数数据都是非结构化的,这导致如果不能有效利用,就会造成大量信息的损失。这些非结构化数据缺乏预定义的格式,为传统的数据处理方法带来了重大挑战。因此,各组织必须采用先进的文本理解和信息提取技术,以有效地分析和提取这些数据中有意义的见解。
文本