【知识图谱构建】Generative Knowledge Graph Construction: A Review （论文笔记）

最新推荐文章于 2024-05-23 13:58:38 发布

liqq234

最新推荐文章于 2024-05-23 13:58:38 发布

阅读量450

点赞数

分类专栏：论文笔记文章标签：知识图谱论文阅读人工智能

本文链接：https://blog.csdn.net/liqq234/article/details/129659813

版权

7 篇文章 0 订阅

订阅专栏

文章概述

知识图谱构建主要指从非结构化的文本中提取出结构化的信息，例如：

知识图谱构建中判别式方法与生成式方法：

判别式方法：目标-基于输入句子的特征预测出可能的标签；一种方法是给定已标注的句子和一系列可能重叠的三元组，利用最大似然函数训练得到最终的关系；另一种方法是根据句子中每个位置的序列标注输出最后的关系标签。优势-根据预定义好的Schema从非结构化的句子中提取关系三元组，这些方法关注于解决利于预测输入文本的关系与事件信息，将知识图谱构建任务看作是sequence-to-sequence问题能够很好的帮助开发通用的结构结解决不同的问题，不被专用、单一的模型以及特殊数据源所约束。
生成式方法：目标-如果 $x$ 是输入的句子， $y$ 是线性化的三元组结果，那么生成式模型的目标就是自回归给定 $x$ 生成 $y$ 。优势-能够在众多下游任务中根据持续结构性被线性化的文本进行预训练，有利于传统理解到结构性理解的转变以及增强知识共享；已有的生成式模型能够对命名实体之间的结构进行模糊建模，从而避免复杂的多标签映射；对于传统的判别式模型来说提取重叠的三元组是很困难的，已有工作证明带有生成式框架的端到端模型可以解决这样的问题。

在这里插入图片描述

概述：开发更健壮的模型在生成过程中从输入序列拷贝相关的token。

应用：

在这里插入图片描述

概述：利用结构化知识和标签语义使得模型更易于处理统一的输出格式。

应用：

Lu (2020) 提出基于T5的端到端事件提取模型，其输出是提取知识的线性化表示，为了避免引进的噪音，模型利用了事件schema约束了解码空间，确保输出文本中的语义结构的合理性；
Lou (2021) 将事件检测规范化为一个Seq2Seq任务并提出一个多层双向网络同时捕获事件和语义信息文档级的关联；
Ye (2021) 使用动态注意力掩码机制引入一个对比学习框架克服生成式架构可能会产生不可靠序列的矛盾；
Cabot and Navigli (2021) 应用了一个简单的三元组解耦方法用于关系提取任务，可能灵活适用于统一领域或者更长的文档中；
Strakova (2019) 提出一个平滑编码算法输出一个单词的多种标签，这些标签来自最高优先级和最高优先级标签的拼接；
Zhang (2022) 根据 the theory of backdoor adjustment 消除了生成过程中的不正确偏移；
Cao (2021) 在实体链接任务中提出生成式实体检索(GENRE)捕捉上下文与实体之间的细粒度交互作用；
Wang, Lu (2022) 提出一个统一的任务不可知框架用于结构化的异质数据提取

在这里插入图片描述

概述：利用额外的标记表示特殊的实体或关系。

应用：

Athiwaratkun (2020) 调研了用于不同结构预测任务的标签增强范式。输出序列拷贝了输入序列中所有的单词，可帮助降低模糊性；同时这个范式使用方括号和其他标记具体化有关实体的标记序列；相关的标记使用|被分割开；同时被标记的单词使得预训练模型中一些潜在的知识可以继续被利用；
Athiwaratkun (2020) 自然地结合标记语义与共享多序列标记任务之间的知识；
Cao (2021) 为了生成实体独特的名称以方便追踪实体，扩展了自回归框架依靠有效的交叉编码用于捕捉上下文与名称之间的关系；由于解码器目标的长度远长于相关的输入长度，这个范式会因为一部分标签被跳过而不适用于文档级的任务。

在这里插入图片描述

概述：生成输入文本单词的索引，将类别标签编码为标签索引。由于输出是严格限制的，除了关系标签外，它不会生成输入文本中不存在对应实体的索引。

应用：

在这里插入图片描述

概述：使用模板为生成的spans定义合适的顺序和关系。

应用：

不同的评估范围：

Semantic utilization：模型利用标签语义的程度；输出的形式越接近自然语言生成式模型与训练任务之间的鸿沟越小；并发现the blank-based paradigm在这种评估下具有明显的优势，其使用了手动构建的模板使得输出接近与自然语言。
Search space: 指的是解码器的词汇空间。由于约束解码机制的应用，一些基于结构的方法可以简化为与copy-based方法。此外，基于指数范例使用一个指针机制来约束输出空间等于输入序列的长度。
Application scope：为KGC的范围可以应用的任务。我们相信架构有能力组织更多的信息灵活地具有优秀的跨任务迁移能力，如基于结构的、基于标签的和blank-based范例。
Template cost：是指构造输入和黄金输出文本的成本。我们观察到，大多数范例都没有需要复杂的模板设计和依赖线性串联以满足任务要求。然而，基于空白的范例需要更多使模板符合的劳动消耗到语义流畅性要求。

未来的研究方向应该专注于统一跨任务模型和提高解码的效率。