基于规则的结构化数据知识抽取(三)

本文是基于规则的结构化数据知识抽取专题的第三篇,介绍知识抽取的交互设计


知识图谱概念本身很容易理解,但是其建模设计、知识抽取、知识融合等过程较为复杂,如果能够通过WYSWYG(所见即所得)的方式指引用户,将为应用带来极大便利。

与本文内容最相关的是规则配置界面,通过设计交互界面,方便用户进行规则配置,此功能又称为本体映射。传统的信息化系统界面往往采用表单方式,配置过程枯燥繁琐,不易发现错误。

1. 界面要素

界面的核心元素包括:

  • 图谱模式画布:图谱模式就是要构建的图谱的Schema。用图谱形式直观展示要抽取的知识内容,其中节点表示要抽取的实体、事件等信息,连边表示要抽取的关系信息。
  • 表信息:可选的数据表,包括表头和表行数据,表行数据主要用于给用户提供示例,一般抽样几行展示
  • 节点配置:每个节点提供ID、名称、类型、表、属性映射的配置,当在画布中添加一个新的节点时,需要至少明确实体类型(事件类似)、对应数据表、ID配置(自动生成或表中的一个或多个字段)、名称名称(表中的一个字段)。明确了实体类型后,通过本体结构可知当前实体可能具有哪些属性,从而建立与数据字段的映射关系。
  • 连边配置:每个连边提供表、首节点ID、尾节点ID、关系类型、属性映射的配置。在画布中选中任意节点,按住鼠标与另外的节点进行连线,进而添加新的连边,需要至少明确数据表、首节点ID配置(选择表中字段,支持选多个字段)、尾节点ID配置(选择表中字段,支持选多个字段)、关系类型(从本体中选择、字面值或字段的值)。明确了关系类型后,通过本体结构可知当前关系可能具有哪些属性,从而建立与数据字段的映射关系。大部分图谱系统中,关系属性非常简单,可简化设计。首尾节点ID配置一定要跟对应实体的ID配置保持一致,否则无法进行关联。
  • 结果预览:以图谱形式立即展示当前配置的规则(及数据表)对应的抽取结果,可以方便用户校验查看

2. 细节设计

配置过程的几个细节问题:

  • 实体ID自动生成有什么用?可方便实体信息抽取,在不考虑关系的情况下,实体ID就无关紧要了。但一旦ID生成,不易修改,且自动生成ID较为随意,后续再希望通过数据中的ID进行关联就比较困难,因此一般情况下尽量使用业务数据字段值作为ID。
  • 实体名称配置的作用?名称用于实体显示,相当于Wikidata图谱中的label字段。理论上也可以支持多个字段的拼接,也支持多个名称条目。
  • 如果本体中未定义所需要的属性怎么办?这个是知识图谱模型设计问题,在严格的以本体核心的知识图谱中,需要先在本体中定义属性,实例才能应用;另一方面,本体中被删除的属性,实例中的相应属性也变成无效状态。也可以采用松散的本体约束,支持为实体、关系添加自由定义的属性信息,属性名称采用字面值或选择的字段名。
  • 数据表与节点、连边的对应关系是什么?支持一张表提取多种类型的实体、关系,即多个节点和连边。一个节点或连边,目前不支持从多张表进行抽取。如果同一类型的实体或关系的信息分布在多张表中,可先通过创建表连接的视图或在模式中添加2个节点/连边来实现。
  • 字段是否可以在多个属性间共用?一般是可以的,使用较为方便,例如“姓名”字段可以同时作为ID和名称属性。如果设计不共用,需要及时更新当前属性的可选字段列表。

3. 模式复用

通过交互界面进行配置,使得图谱模式定义较为便利。但在实践中经常发现数据结构重复或高度相似,图谱模式配置每次从空画布开始就显得格外繁琐,因此考虑如何进行模式复用。

通过任务定义,会将图谱模式(其实就是前文所属的抽取规则)保存,但是将图谱模式独立管理更加便于复用。增加模式保存功能,提供模式名称进行保存。在新建任务或编辑图谱模式时,可以载入已有的模式。

4. 模式推荐

首先是属性级别的推荐。经常遇到需要做较多属性映射配置的情况,如果能够自动进行属性-字段字段匹配,可以进一步减轻配置的工作量。直观的方法是根据名称进行相似度计算,对于所选类型的属性名称列表A和所选表的字段列表B,逐个进行计算,并在属性配置中配置推荐的字段,供用户确认。另外,为了方便属性或字段查找,建议提供字母或拼音字母进行排序。

第二是规则粒度推荐,根据数据的表结构,进行查找、推荐。通过与历史配置库进行对比,找到表结构最为相似的图谱模式进行推荐,本质上是一种更加自动化的模式复用。

第三是图谱模式级别的推荐,可以参考的信息包括当前图谱构建任务的描述、图谱所选的表数据的结构。

5. 模式校验

一般的图谱模式配置,并不会对数据类型进行校验。实际上,本体中一般具有属性的类型信息,如果配置映射的字段数据类型不匹配,抽取、融合过程中也会发生错误。这种问题称为“本体冲突”。通过自动检测本体冲突,发现冲突时对用户进行提示,从而提高图谱的质量。

另外一种情况是配置信息自身不匹配,例如连边的首尾节点ID配置与节点的ID配置不一致。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值