本文参考了Mayank Kejriwal的新著《Domain-Specific Knowledge Graph Construction》(2019年)
写在前面
这一篇文章是《什么是知识图谱(Knowledge Graph)(上)》的后续,主要介绍了几个KG应用的例子。有一些概念在上一篇文章里介绍过,如果对这一篇里的一些定义有疑问,请先阅读上一篇哦。
实例1:学术领域
我们第一个要讲的 domain-specific KG是学术出版(academic publication)领域(如下图)。中间两个红色边框的节点代表了不同的学术刊物,它们的名字就是刊物的标题。刊物的其他信息(如作者,发行时间,会议)也在图上表示了出来。矩形通常用于表示属性(literals),椭圆通常用于表示资源(resources)或实体(entities)。
这样的表示除了简单易懂之外,还有一个重要的原因就是它有一些自带的含义。椭圆节点通常表示的是国际化资源标识符(Internationalized Resource Identifiers,简称IRI),它是统一资源标识符(Uniform Resource Identifier,简称URI)的通用形式。
实体和实体之间可以有关系(如作者和刊物之间),实体和属性之间也可以有关系(如刊物和发行时间之间)。但是在一个三元组(h, r, t)当中,t可以是属性或者实体,但是h只能是实体。
实例2:产品和公司
我们再来看看电商领域中实体和属性的区别(参考下图)。这张图画了同一个商品的两种不同表示方法(红框椭圆),通常我们需要找到实际上相同的实体,如图中的“iPhone XS Mas 512 GB”和“iPhone”,这个过程就是entity resolution。
在建立KG的基础结构时都有极高的自由度,比如同样一种商品可以用两种完全不同的方法来建模,但是建模的方式可能会同时对上游任务和下游任务产生影响。(上游任务是指KG生成之前的任务,比如信息提取(information extraction),下游任务是KG被抽取和被保存之后的任务,比如entity resolution和entity querying。)例如,我们没有进行entity resolution的话,就不能直接计算合集(aggregation),比如计算产品的实际总个数。
由于我们经常会碰到从各种各样的资源里抽取到同样一个实体的情况,所以我们必须对其进行entity resolution。在以后的文章中我们会详细讲entity resolution。
实例3:地缘政治事件
这是一个复杂而前沿的例子。这里不加赘述地缘政治是什么,如果感兴趣可以自己搜一搜,这里主要讲用KG表示事件。
除了在前面例子中讲到的实体和属性等内容之外,KG的图还可以用二阶(second-order)实体来表示,事件就是典型的二阶实体。一个事件中的地点(location)和时间(time)是一阶(first-order)实体,而这些一阶实体还具有描述它们的属性,加起来就形成了二阶实体(如下图的虚线椭圆部分)。事件还可以直接拥有属性(如下图的:description),这个时候就类似于一阶实体。
小结
KG最近成了一种非常火的数据表现的方法,知识探索(knowledge discovery)、数据挖掘(data mining)、语义网络(Semantic Web)和自然语言处理(Natural Language Processing)等领域都在探索KG及其应用。
直到现在也没有一篇总结性论文(survey)来定义KG,它的范围非常广泛。通常,我们可以把研究方向分为“没有特定研究某个领域的KG”和“特定于某个领域(domain-specific)的KG”。
由于越来越多的证据证明了没有适用于所有领域的KG通用模型,而且特定于某个领域的KG能够表现出色,这本书主要讨论特定于某个领域的KG。
KG虽然在继续发展,但是新的趋势都是建立在过去几十年的基础之上的。而就在写作这本书的时候,以KG为核心的应用,还在不断涌现。
到这里《什么是知识图谱(Knowledge Graph)(上、下)》就全部结束了
下一篇是《信息抽取(Information Extraction)是什么》,里面简单介绍了前文提到的信息抽取。
本人也在边总结这本书边学习知识图谱,如果有错误还请指正^_^
这一系列文章主要是提取一些最最最关键内容,想仔细阅读的朋友们还请移步原书哟~
(last but not least:转载请注明出处)