知识图谱中的实体定义

1.引言

在前一篇博文《Neo4j构建目标知识图谱》中提到知识图谱的构建中实体及关系的定义是个难点,在本篇中试图总结经验。

2.知识图谱是什么

知识图谱本质上是一种语义网络,用图的形式描述客观事物,这里的图指的是数据结构中的图,也就是由节点和边组成的,这也是知识图谱(Knowledge Graph)的真实含义。知识图谱中的节点表示概念和实体,概念是抽象出来的事物,实体是具体的事物;边表示事物的关系和属性,事物的内部特征用属性来表示,外部联系用关系来表示。很多时候,人们简化了对知识图谱的描述,将实体和概念统称为实体,将关系和属性统称为关系,这样就可以说知识图谱就是描述实体以及实体之间的关系。实体可以是人,地方,组织机构,概念等等,关系的种类更多,可以是人与人之间的关系,人与组织之间的关系,概念与某个物体之间的关系等等,以下是一个例子。
在这里插入图片描述
例如上图展示的是毛选中的基本信息知识图谱,节点的信息分别为:作者、书名、主要问题(三大问题)、每本书中的主要内容观点抽象化。边的信息主要为:依据、属性特点等。

3.知识图谱是怎么组织数据的

知识图谱是由实体和实体的关系组成,通过图的形式表现出来,那么实体和实体关系的这些数据在知识图谱中怎么组织呢,这就涉及到三元组的概念,在知识图谱中,节点-边-节点可以看作一条记录,第一个节点看作主语,边看作谓语,第二个节点看作宾语,主谓宾构成一条记录。比如曹操的儿子是曹丕,曹操是主语,儿子是谓语,曹丕是宾语。再比如,曹操的小名是阿瞒,主语是曹操,谓语是小名,宾语是阿瞒。知识图谱就是由这样的一条条三元组构成,围绕着一个主语,可以有很多的关系呈现,随着知识的不断积累,最终会形成一个庞大的知识图谱,知识图谱建设完成后,会包含海量的数据,内涵丰富的知识。以上基础知识来源于[知识图谱基础知识之一——人人都能理解的知识图谱]

4.知识图谱构建的基本模式

知识图谱中实体和关系的定义通常是基于需求导向的,例如,我们想构建一个体现导师、学生人物关系的知识图谱时,那么我们可以定义(导师->指导->学生)这样的三元组;再者,当我们想构建体现学校、导师、学生关系时,我们可以定义为(导师->属于->学校;导师->指导->学生)。

在学术上,知识图谱模式层的定义往往需要领域专家的参与,而且模式层实体和关系的定义是需要迭代进行的。例如,当我们想构建一个生物医疗知识图谱时往往很难,因为这里涉及大量的医学名词,非医学专业的对这些名词的理解很困难,更别谈充分理解融会贯通后定义了。但是领域知识图谱的定义往往更加重要,也是科研中的主要研究方向。

通常,知识图谱的构建分为两个关键步骤:1、模式层定义:实体定义、实体关系定义;2、实体及关系抽取。

而模式层定义中的两步:实体定义、实体关系定义也有一些基本的思路。

实体定义:
实体定义中有两种思路,一种是自顶向下,一种是自底向上。所谓的自顶向下即先确定目标需求,再制定实体的关键概念。例如,我们想探索一下基因和蛋白质的关系,那么我们就制定实体基因和蛋白质,并且可以制定关系"促进"、“抑制”;再如想了解基因和疾病的关系,那么我们指定实体为"基因"、“疾病”,关系为"正向作用"、“负向作用”。总归而言,在这个模式中我们是有目标导向的,我们根据目标需求来制定相应的实体关系。例如我们想了解公司股票、人物的结构关系,那么我们可以制定如下的模式层:
在这里插入图片描述
在自顶向下的模式中通常基于领域专家的判断,制定较为专业的模式。

另一种模式是自底向上,这个策略是一种无奈之举,毕竟自顶向下往往借助领域专家的经验,这个过程限制条件太多,模式的定义周期太长很耗时间。那么这个时候就得从底层,也就是数据层找思路,我们的可用数据是什么。例如当我们想制定一个金融知识图谱时,我们能拿到的公开数据是新闻媒体财经频道的文本,这时候我们对文本的数据进行总结,发现有些词汇还是比较集中的,例如公司、股票、指数、基金。关系有:上涨、下跌、跌停等。又如我们只有军事报道文本时,我们可以发现这类文本中的核心词汇为:中国、美国等国别地区;武器装备(又可分海陆空三军装备);军事头衔等。

这个模式也是一种迭代的过程,在实践中需要不断地调整,通常的做法是先抽样一批数据来标注,然后调整模式定义,之后再确定一个较为合理的模式进行后续图谱构建。

整体而言,不管是自顶向下还是自底向下,我们都很难一次做到很完美,比较好的思路是上述抽样定义再修改的过程。如果能有现成的或者目标明确的定义那就最好,如果没有的话可以先定义简单的实体关系,然后一步一步扩展实体并修改,反复几次之后就能制定一个较为合理的模式。

  • 13
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值