知识图谱中的知识是通过RDF结构来进行表示的,其基本单元是事实。每个事实是一个三元组(S, P, O),在实际系统中,按照存储方式的不同,知识图谱的存储可以分为基于表结构的存储和基于图结构的存储。
基于表结构的存储可以用关系型数据库,常见的关系型数据库存储系统有MySQL、Oracle、DB2、Microsoft SQL Server等;基于图结构的存储,常见的存储系统有Neo4j、OritentDB、InfoGrid、HyperGraphDB、infiniteGraph等。下面讲述Neo4j数据库的一些理论和操作。
图数据库的理论基础是图论,通过节点、边和属性对数据进行表示和存储。具体来说,图数据库基于有向图,其中,节点、边、属性是图数据库的核心概念。
(1)节点
节点用于表示实体、事件等对象,可以类比于关系数据库中的记录或者数据表中的行数据。例如人物、地点、电影都可以作为图中的节点。
(2)边
边是指图中连接节点的有向线条,用于表示不同节点之间的关系。例如人物之间的同事关系都可以作为图中的边。
(3)属性
属性用于描述节点或者边的特性。例如人物(节点)的姓名、性别、爱好等都是属性。
图数据库的标准查询语言是SPARQL。SPARQL是由W3C为RDF数据开发的一种查询语言和数据获取协议,是被图数据库广泛支持的查询语言,用于对数据的获取与管理,主要包括数据的插入、删除和查询操作,没有更新操作。
下面来介绍SPARQL语言的使用方法。
1. 数据插入
数据插入指新的三元组插入到已有的RDF图中,通过INSERT DATA语句完成该功能。
语法:INSERT DATA 三元组数据
例子&#x