文章概述
- 对生成知识图谱构建方法进行详细,完整的分类
- 从理论和经验的角度分析构建方法的利弊
- 根据上述分析,给出未来可能的知识图谱构建方法发展方向
知识图谱构建主要指从非结构化的文本中提取出结构化的信息,例如:
- 实体识别(Named Entity Recognition-NER)
- 关系提取(Relation Extraction-RE)
- 事件提取(Event Extraction-EE)
- 实体链接(Entity Linking-EL)
- 知识图谱完善(Knowledge Graph Completion)
知识图谱构建中判别式方法与生成式方法:
- 判别式方法:目标-基于输入句子的特征预测出可能的标签;一种方法是给定已标注的句子和一系列可能重叠的三元组,利用最大似然函数训练得到最终的关系;另一种方法是根据句子中每个位置的序列标注输出最后的关系标签。优势-根据预定义好的Schema从非结构化的句子中提取关系三元组,这些方法关注于解决利于预测输入文本的关系与事件信息,将知识图谱构建任务看作是sequence-to-sequence问题能够很好的帮助开发通用的结构结解决不同的问题,不被专用、单一的模型以及特殊数据源所约束。
- 生成式方法:目标-如果
x
x
x是输入的句子,
y
y
y是线性化的三元组结果,那么生成式模型的目标就是自回归给定
x
x
x生成
y
y
y。优势-能够在众多下游任务中根据持续结构性被线性化的文本进行预训练,有利于传统理解到结构性理解的转变以及增强知识共享;已有的生成式模型能够对命名实体之间的结构进行模糊建模,从而避免复杂的多标签映射;对于传统的判别式模型来说提取重叠的三元组是很困难的,已有工作证明带有生成式框架的端到端模型可以解决这样的问题。
生成式知识图谱构建分类
Copy-based Sequence
概述:开发更健壮的模型在生成过程中从输入序列拷贝相关的token。
应用:
- Zeng (2018) 基于复制机制设计了一个端到端系统解决三元组的重叠问题;
- Zeng (2019) 为了识别一个合理三元组的提取顺序,有工作将三元组的生成过程转换为一个强化学习过程,使得这种copy机制具有有效的生成顺序;
- Zeng (2020) 将头部,尾部实体利用一个附加的非线性层映射到融合特征空间用于实体复制,从而增强了这种机制的能力;
- Huang于2021年提出一个TOP-k复制机制用于缓解实体对的计算复杂性。
Structure-linearized Sequence
概述:利用结构化知识和标签语义使得模型更易于处理统一的输出格式。
应用:
- Lu (2020) 提出基于T5的端到端事件提取模型,其输出是提取知识的线性化表示,为了避免引进的噪音,模型利用了事件schema约束了解码空间,确保输出文本中的语义结构的合理性;
- Lou (2021) 将事件检测规范化为一个Seq2Seq任务并提出一个多层双向网络同时捕获事件和语义信息文档级的关联;
- Ye (2021) 使用动态注意力掩码机制引入一个对比学习框架克服生成式架构可能会产生不可靠序列的矛盾;
- Cabot and Navigli (2021) 应用了一个简单的三元组解耦方法用于关系提取任务,可能灵活适用于统一领域或者更长的文档中;
- Strakova (2019) 提出一个平滑编码算法输出一个单词的多种标签,这些标签来自最高优先级和最高优先级标签的拼接;
- Zhang (2022) 根据 the theory of backdoor adjustment 消除了生成过程中的不正确偏移;
- Cao (2021) 在实体链接任务中提出生成式实体检索(GENRE)捕捉上下文与实体之间的细粒度交互作用;
- Wang, Lu (2022) 提出一个统一的任务不可知框架用于结构化的异质数据提取
Label-augmented Sequence
概述:利用额外的标记表示特殊的实体或关系。
应用:
- Athiwaratkun (2020) 调研了用于不同结构预测任务的标签增强范式。输出序列拷贝了输入序列中所有的单词,可帮助降低模糊性;同时这个范式使用方括号和其他标记具体化有关实体的标记序列;相关的标记使用|被分割开;同时被标记的单词使得预训练模型中一些潜在的知识可以继续被利用;
- Athiwaratkun (2020) 自然地结合标记语义与共享多序列标记任务之间的知识;
- Cao (2021) 为了生成实体独特的名称以方便追踪实体,扩展了自回归框架依靠有效的交叉编码用于捕捉上下文与名称之间的关系;由于解码器目标的长度远长于相关的输入长度,这个范式会因为一部分标签被跳过而不适用于文档级的任务。
Indice-based Sequence
概述:生成输入文本单词的索引,将类别标签编码为标签索引。由于输出是严格限制的,除了关系标签外,它不会生成输入文本中不存在对应实体的索引。
应用:
- Nayak and Ng (2020) 应用此方法到关系提取任务中,使得解码器找到所有的重叠三元组;
- Yan (2021) 应用此方法生成NER的索引,可被用于flat, nested, discontinuous NER;
- Du (2021) 依靠模糊捕捉名词词组共指结构应用此方法到角色填充实体识别任务。
Blank-based Sequence
概述:使用模板为生成的spans定义合适的顺序和关系。
应用:
- Du (2021) 探讨了用于事件提取任务的基于空白的形式包括表示事件信息(如事件类型)的特殊标记;
- Li (2021) 将文档级别的事件参数提取建模为基于模板的有条件生成并且引进新的文档级信息辅助生成过程;
- Hsu (2022) 专注于低资源事件提取并提出一个数据有效的模型-DEGREE,利用标签的语义信息;
- Huang (2022) 设计了一个语言不可知模板用于表示事件参数结构,有助于跨语言转换;
- Ma (2022) 提出了一个有效的模型PAIE用于提取相同角色的多个参数。
对比与讨论
不同的评估范围:
- Semantic utilization:模型利用标签语义的程度;输出的形式越接近自然语言生成式模型与训练任务之间的鸿沟越小;并发现the blank-based paradigm在这种评估下具有明显的优势,其使用了手动构建的模板使得输出接近与自然语言。
- Search space: 指的是解码器的词汇空间。由于约束解码机制的应用,一些基于结构的方法可以简化为与copy-based方法。此外,基于指数范例使用一个指针机制来约束输出空间等于输入序列的长度。
- Application scope:为KGC的范围可以应用的任务。我们相信架构有能力组织更多的信息灵活地具有优秀的跨任务迁移能力,如基于结构的、基于标签的和blank-based范例。
- Template cost:是指构造输入和黄金输出文本的成本。我们观察到,大多数范例都没有需要复杂的模板设计和依赖线性串联以满足任务要求。然而,基于空白的范例需要更多使模板符合的劳动消耗到语义流畅性要求。
未来的研究方向应该专注于统一跨任务模型和提高解码的效率。
分析
- Structure-based 和 Label-based 方法对比在NYT数据集上的所有判别式方法实现了相似的提取性能;
- 生成式方法在未来比起判别式方法更具应用性;
- 生成式方法比起判别式方法在事件提取任务上能够获得不相上下的性能。
未来的研究方向
- Generation Architecture
- Generation Quality
- Training Efficiency
- Universal Deployment
- Inference Speed