文章目录
零、图谱类型
- 概念图谱:关系均为isa。
- 关系图谱:设定固定的关系类别schema,其中spo三元组中的s和o都是实体,这也是最经典的图谱,因为真正满足数据结构。
- 属性图谱:spo三元组中,p和o都是开放的,o甚至可以是图像,音频等任意描述头实体的属性信息。
- 事件谱图:存储事件信息,其中事件元素都应该是实体。
一、模式定义
- 模式也就是知识图谱的本体,是整个项目的骨架,直接决定知识图谱的应用范围。
这个阶段,需要根据知识图谱的应用场景,确定图谱的领域,进一步定义知识图谱的实体类别(概念)、概念分级、关系类别、属性类别等一系列数据规范。
1.1 实体类别和概念分级
- 一个实体的类别,也称作实体的上位词,每个上位词就是一个概念。这实际上就是我们通常意义上的分类。对不同层级的分类,相对而言有粗粒度和细粒度的描述。
1.2 关系和属性
- 关系是描述实体与实体之间的说明符,对知识图谱而言,关系连接的是图中的两个结点。而属性只是描述单个实体,在知识图谱中属性值不是独立的结点。属性类别在本体定义中只是一个可选项。
- 属性在数据结构上可能不同于实体。属性是一个具体的值,它可以是一个字符串、一个链接、图片等单个值。
二、信息抽取
- 完成第一阶段的模式定义后,剩下的就是通过信息抽取填充上色。但在目前而言的实际工作中,第一阶段的任务往往是十分困难的,通常需要仔细的调研需求并进行设计。但是在一些领域(通用领域、医学领域等),已经有较为完备的本体定义(具体待补充),可以对这些工作加以利用。
1.1 命名实体识别
- 最常规:序列标注方法
- 嵌套实体:基于阅读理解(MRC)、指针等。(待补充)
1.2 关系抽取
- 数据方面
- 远监督
- snow ball
- 模型方面
- 单纯的关系分类,输入为实体对
- 实体关系联合抽取(结合序列标注和文本分类等技术,设计pipline、end2end模型)
1.3 属性抽取
- 数据方面主要是利用搜索引擎,可以快速获取大量实体的基础属性。
- 从非结构化文本中进行属性抽取,技术方案与关系抽取类似。
1.4 实体对齐
实体对齐是判断多源异构数据中的实体是否指向真实世界同一对象的过程。如果多个实体表征同一个对象,则在这些实体之间构建对齐关系,同时对实体包含的信息进行融合和聚集。
1.5 实体链接
- 实体链接,也称为实体消岐
- 通常分为候选实体召回和候选实体排序两个阶段。(也可根据情况划分为多级,目的是为了平衡性能和准确率,类似计算机体系中的多级缓存结构)
- 召回(尽可能覆盖目标实体、候选集尽可能小):
- 规则匹配
- 简单高性能的机器学习方法
- 排序
- 文本相似度法:通过计算mention和候选实体特征的关联度
- 知识表示法(transE、transH等):对知识库中所有的实体学习一个向量表示。
三、图谱补全
- 补全包括属性补充、关系补充等。主要是通过在现有的不完整的知识图谱上挖掘规律。例如,只是哭中对于实体苹果,有颜色这个属性,因为苹果是水果,所以可以推理所有的水果都有颜色这一个属性。
- 对于关系抽取也有类似的方法。
- 补全的方法,基于知识表示、(待补充)
四、功能图谱的嵌入与结合
事件图谱
- 事件抽取的要素,通常是关系图谱中的实体,从而实现对一个事件语义层面的解析。
- 事理图谱:描述事物之间的逻辑关系
- 时序图谱:将常规的三元组增加一个事件戳,变成四元组,从而可以描述时间发展,并能提供丰富的时间维度的操作。