知识图谱的理解

知识图谱

首先强烈推荐两篇博客写的非常详细:
1、https://www.jiqizhixin.com/articles/2018-06-20-4
2、http://www.360doc.com/content/20/0525/00/43535834_914347385.shtml

知识图谱,本质上旨在描述真实世界中存在的各种实体或者概念及其关系,其构成一张巨大的语义网络图,节点表示实体或者概念,边则是由属性或者关系构成。
在这里插入图片描述

知识图谱的定义

知识图谱之中包含多种类型的节点,诸如实体、概念、内容、属性和关系等。

知识

知识和信息是不同的,信息是指外部的的客观事实,知识是指对外部客观规律的归纳和总结。可以用图示来描述这种不同。
在这里插入图片描述
这样就很容易理解,在信息的基础上,建立实体之间的联系,就能形成“知识”。

实体

实体是指具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物、某一种商品等等。世界万物由具体事物组成,此值实体。实体是知识图谱中的最基本元素,不同的实体之间存在不同的关系。

概念(语义类)

是指具有同种性质的实体构成的集合,如国家、民族、书籍、电脑等。概念主要指集合、类别、对象类型、事物的种类,例如任务、地理等。

内容

通常作为实体和语义类的名字、描述、解释等,可以由文本、图像、音视频等来表达。

属性

从一个实体指向它的属性值。不同的属性类型对应不同类型属性的边。属性值主要是指对象指定属性的值,如面积人口首都均是属性,而14亿则是人口属性的属性值。

关系

可以等同为一个函数,将K个点映射到一个布尔值。在知识图谱中,关系就是一个把各个图节点映射到布尔值的函数。

知识图谱的含义

知识图谱的通用表示是三元组。它是由一条条的知识组成,每条知识可表示为一个SPO三元组(Subject-Predicate-Object)。
在这里插入图片描述
三元组的基本形式包括(实体1-关系-实体2)和(实体-属性-属性值)等。每个实体可用一个全局确定的pari等刻画实体的内在特性,而关系可用来连接两个实体,刻画他们之间的关联。
举个例子,
如下图在这里插入图片描述
中国和北京均是一个实体,中国-首都-北京是一个实体-关系-实体的三元组阳历,北京是实体,人口是属性,2069.3万是属性值。北京-人口-2069.3万是一个属性-属性-属性值的三元组样例。

知识图谱的体系架构

知识图谱的体系架构主要包括自身的逻辑结构以及体系架构。

逻辑结构

知识图谱在逻辑结构上可分为模式层和数据层两个层次,
数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储,如果用三元组来表达事实,可选择图数据库作为存储介质,例如例如开源的Neo4j、Twitter的FlockDB、sones的GraphDB等以及中科天玑自主研发的Golaxy Graph。
模式层构建在数据层之上,是知识图谱的核心,通常采用本体库来管理知识图谱的模式层。本体是结构化知识库的概念模板,通过本体库形成的知识库不仅层次结构较强,并且冗余度很小。

体系架构

知识图谱的体系架构是指其构建模式的结构,如图:
在这里插入图片描述
大规模的知识库的构建与应用需要多种智能信息处理技术的支持。通过知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。

知识抽取

知识抽取,主要是指面向开放的连接数据,通过自动化的技术抽取出可用的知识单元,知识单元主要包括实体、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构架奠定基础:
它主要有三个工作:

  • [1] 实体抽取:技术上我们更多称为 NER(named entity recognition,命名实体识别),指的是从原始语料中自动识别出命名实体。由于实体是知识图谱中的最基本元素,其抽取的完整性、准确、召回率等将直接影响到知识库的质量。因此,实体抽取是知识抽取中最为基础与关键的一步;
  • [2] 关系抽取:目标是解决实体间语义链接的问题,早期的关系抽取主要是通过人工构造语义规则以及模板的方法识别实体关系。随后,实体间的关系模型逐渐替代了人工预定义的语法与规则。
  • [3] 属性抽取:属性抽取主要是针对实体而言的,通过属性可形成对实体的完整勾画。由于实体的属性可以看成是实体与属性值之间的一种名称性关系,因此可以将实体属性的抽取问题转换为关系抽取问题。
知识表示

近年来,以深度学习为代表的表示学习技术取得了重要的进展,可以将实体的语义信息表示为稠密低维实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联,对知识库的构建、推理、融合以及应用均具有重要的意义。

知识融合

由于知识图谱中的知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。

其中,知识更新是一个重要的部分。人类的认知能力、知识储备以及业务需求都会随时间而不断递增。因此,知识图谱的内容也需要与时俱进,不论是通用知识图谱,还是行业知识图谱,它们都需要不断地迭代更新,扩展现有的知识,增加新的知识。

知识图谱的构建方式

知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。
自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库。
自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。目前,大多数知识图谱都采用自底向上的方式进行构建,其中最典型就是Google的Knowledge Vault和微软的Satori知识库。现在也符合互联网数据内容知识产生的特点。

参考网址

1、https://zhuanlan.zhihu.com/p/71128505
2、https://baijiahao.baidu.com/s?id=1592653047313321258&wfr=spider&for=pc

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值