知识图谱简述

什么是知识图谱

目前,知识图谱并没有一个明确的定义(gold standard definition)。我在这里借用一下“Exploiting Linked Data and Knowledge Graphs in Large Organisations”这本书对知识图谱的定义:
A knowledge graph consists of a set of interconnected typed entities and their attributes.

即,知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Object)。
在这里插入图片描述
在知识图谱中,我们用RDF形式化地表示这种三元关系。RDF(Resource Description Framework),即资源描述框架,是W3C制定的,用于描述实体/资源的标准数据模型。RDF图中一共有三种类型,International Resource Identifiers(IRIs),blank nodes 和 literals。下面是SPO每个部分的类型约束:

  • Subject可以是IRI或blank node。
  • Predicate是IRI。
  • Object三种类型都可以。

可以看一下实际数据,这是由万科查询出来的知识图谱:

可以看出来,图不过是一些顶点和边的集合,或者说更简单一点,图就是一些节点和关联这些节点的联系的集合。这里invest(投资)和officer(职位)就是边集合,而公司和个人就是顶点,通过这些关系能构建一张相互关联的图。
在这里插入图片描述

无处不在的图

就拿Twitter来说,他的数据是很容易构建一张图,我们可以看出由Twitter用户组成的一个小型社交网络。每个节点被标记为User,表明了他在这个网络中的角色。然后通过Follows来进行关联,通过这张图,我们可以很好的看出来他们之间的follows关系
在这里插入图片描述
在我们了解现实世界的数据的广泛多样性的时候,会发现不同于关系型数据库背后基于表的模型,他们之间有非常丰富的关系连接起来,可以形成不同的图。

图领域

OLTP

主要用于联机事务图的持久化,通常直接实时的被应用程序访问,这类技术称为图数据库,和常见的关系型图数据库中的联机事务处理(online transactional processing,OLTP)数据库是一样。

OLAP

主要用于离线图分析分析的技术,通常按照一系列步骤执行,这类技术被称为图计算引擎,和其他大数据分析技术看做一类,如数据挖掘和联机分析处理(online analytical processing,OLAP)。

从图模型的角度来看,也可以分为以下三种类型

  • 属性图
  • 资源描述框架(Resource Description Framework,RDF)三元组
  • 超图

图数据库

图数据库管理系统是一种在线的数据管理系统,他支持图数据模型的增、删、改、查(CRUD)方法。图数据库一般用于事务处理中。
一般分析图数据库,我们会从以下两个角度进行分析:

底层存储

一些图数据库使用的图原生存储,这类存储专门对图的存储做过优化,专门为图的存储和管理设计,另外一类就是使用的是将数据序列化之后,将图数据存储到关系型数据库或者面向对象的数据库中。

处理引擎

一些定义要求图数据库使用免索引邻接,这就意味着,这些关系是在物理上指向彼此的。站在客户的角度上,只要看起来像图的数据库都是图数据库,虽然免索引邻接带来了巨大的性能优势,但同时会给一些非遍历的查询中带来性能隐患,同时需要耗费大量的内存。
根据底层存储和处理引擎,可以构建以下这张图:

在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Contents Knowledge Graphs: Venturing Out into the Wild . . . . . . . . . . . . . . . . . . . . 1 Gerard de Melo Information Extraction from the Web by Matching Visual Presentation Patterns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Radek Burget Statistical Induction of Coupled Domain/Range Restrictions from RDF Knowledge Bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Basil Ell, Sherzod Hakimov, and Philipp Cimiano Wikipedia and DBpedia for Media - Managing Audiovisual Resources in Their Semantic Context . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Jean-Pierre Evain, Mike Matton, and Tormod Vaervagen Identifying Global Representative Classes of DBpedia Ontology Through Multilingual Analysis: A Rank Aggregation Approach . . . . . . . . . . 57 Eun-kyung Kim and Key-Sun Choi Identifying Poorly-Defined Concepts in WordNet with Graph Metrics . . . . . . 66 John P. McCrae and Narumol Prangnawarat Extracting Process Graphs from Medical Text Data: An Approach Towards a Systematic Framework to Extract and Mine Medical Sequential Processes Descriptions from Large Text Sources. . . . . . . . . . . . . . . . . . . . . 76 Andreas Niekler and Christian Kahmann Chainable and Extendable Knowledge Integration Web Services. . . . . . . . . . 89 Felix Sasaki, Milan Dojchinovski, and Jan Nehring Entity Typing Using Distributional Semantics and DBpedia . . . . . . . . . . . . . 102 Marieke van Erp and Piek Vossen WC3: Analyzing the Style of Metadata Annotation Among Wikipedia Articles by Using Wikipedia Category and the DBpedia Metadata Database . . . 119 Masaharu Yoshioka Author Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值