什么是知识图谱(Knowledge Graph)(下)

本文参考了Mayank Kejriwal的新著《Domain-Specific Knowledge Graph Construction》(2019年)

 

写在前面

        这一篇文章是《什么是知识图谱(Knowledge Graph)(上)》的后续,主要介绍了几个KG应用的例子。有一些概念在上一篇文章里介绍过,如果对这一篇里的一些定义有疑问,请先阅读上一篇哦。

 

实例1:学术领域

       我们第一个要讲的 domain-specific KG是学术出版(academic publication)领域(如下图)。中间两个红色边框的节点代表了不同的学术刊物,它们的名字就是刊物的标题。刊物的其他信息(如作者,发行时间,会议)也在图上表示了出来。矩形通常用于表示属性(literals),椭圆通常用于表示资源(resources)或实体(entities)。

       这样的表示除了简单易懂之外,还有一个重要的原因就是它有一些自带的含义。椭圆节点通常表示的是国际化资源标识符(Internationalized Resource Identifiers,简称IRI),它是统一资源标识符(Uniform Resource Identifier,简称URI)的通用形式。

       实体和实体之间可以有关系(如作者和刊物之间),实体和属性之间也可以有关系(如刊物和发行时间之间)。但是在一个三元组(h, r, t)当中,t可以是属性或者实体,但是h只能是实体。

 

实例2:产品和公司

       我们再来看看电商领域中实体和属性的区别(参考下图)。这张图画了同一个商品的两种不同表示方法(红框椭圆),通常我们需要找到实际上相同的实体,如图中的“iPhone XS Mas 512 GB”和“iPhone”,这个过程就是entity resolution。

       在建立KG的基础结构时都有极高的自由度,比如同样一种商品可以用两种完全不同的方法来建模,但是建模的方式可能会同时对上游任务和下游任务产生影响。(上游任务是指KG生成之前的任务,比如信息提取(information extraction),下游任务是KG被抽取和被保存之后的任务,比如entity resolution和entity querying。)例如,我们没有进行entity resolution的话,就不能直接计算合集(aggregation),比如计算产品的实际总个数。

       由于我们经常会碰到从各种各样的资源里抽取到同样一个实体的情况,所以我们必须对其进行entity resolution。在以后的文章中我们会详细讲entity resolution。

 

实例3:地缘政治事件

       这是一个复杂而前沿的例子。这里不加赘述地缘政治是什么,如果感兴趣可以自己搜一搜,这里主要讲用KG表示事件。

       除了在前面例子中讲到的实体和属性等内容之外,KG的图还可以用二阶(second-order)实体来表示,事件就是典型的二阶实体。一个事件中的地点(location)和时间(time)是一阶(first-order)实体,而这些一阶实体还具有描述它们的属性,加起来就形成了二阶实体(如下图的虚线椭圆部分)。事件还可以直接拥有属性(如下图的:description),这个时候就类似于一阶实体。

 

小结

       KG最近成了一种非常火的数据表现的方法,知识探索(knowledge discovery)、数据挖掘(data mining)、语义网络(Semantic Web)和自然语言处理(Natural Language Processing)等领域都在探索KG及其应用。

       直到现在也没有一篇总结性论文(survey)来定义KG,它的范围非常广泛。通常,我们可以把研究方向分为“没有特定研究某个领域的KG”和“特定于某个领域(domain-specific)的KG”。

       由于越来越多的证据证明了没有适用于所有领域的KG通用模型,而且特定于某个领域的KG能够表现出色,这本书主要讨论特定于某个领域的KG。

       KG虽然在继续发展,但是新的趋势都是建立在过去几十年的基础之上的。而就在写作这本书的时候,以KG为核心的应用,还在不断涌现。

 


到这里《什么是知识图谱(Knowledge Graph)(上、下)》就全部结束了

下一篇是《信息抽取(Information Extraction)是什么》,里面简单介绍了前文提到的信息抽取。


本人也在边总结这本书边学习知识图谱,如果有错误还请指正^_^

这一系列文章主要是提取一些最最最关键内容,想仔细阅读的朋友们还请移步原书哟~

(last but not least:转载请注明出处)

常识性知识图谱是一种以图谱结构来组织和表示常识性知识的技术。它以实体、属性和关系为基本元素,将各种类型的常识性知识以节点和边的形式连接起来,形成一个丰富的知识网络。 在常识性知识图谱中,实体代表现实世界中的事物,如人物、地点、组织、概念等。属性表示实体的性质或特征,如人物的出生日期、地点的经纬度等。而关系则描述实体之间的关联或联系,如人物之间的亲属关系、地点之间的距离关系等。 常识性知识图谱的建立主要依靠自然语言处理、信息抽取和知识表示等技术。首先,通过自然语言处理技术,从多种文本资源中抽取出实体、属性和关系的信息。然后,利用信息抽取技术将这些信息结构化,并按照图谱的形式进行组织。最后,通过知识表示技术,将这些结构化的知识表示为计算机可理解的形式,以便机器能够基于知识图谱进行推理和理解。 常识性知识图谱具有广泛的应用前景。它可以用于智能问答系统,提供准确、全面的答案;用于智能推荐系统,根据用户的兴趣和需求,为其推荐个性化的内容;用于智能机器人,帮助机器人具备理解和推理能力,提供更智能的服务等等。 然而,常识性知识图谱的构建面临一些挑战,如知识获取的可靠性和准确性,知识表示的一致性和丰富性等。未来,通过不断改进知识抽取、知识推理等技术,常识性知识图谱有望更好地支持人工智能系统的发展,为人们提供更智能、更高效的服务。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值