目前,知识图谱数据管理的理论、方法、技术与系统处于快速发展和开发完善阶段.数据库学术和产业界对知识图谱数据管理研发投入正在不断增加.本节将未来的研究方向归纳如下.
(1) 知识图谱数据模型与查询语言的统一
(2) 大规模知识图谱数据的分布式存储方案
知识图谱数据的分布式存储面临的第一个问题是大规模图数据的划分.图划分问题本身是一个经典的 NP 完全问题.即使使用公认最优的 METIS 图划分算法,对于大规模图数据在单机上执行划分也几乎是不可行的.所以,首先需要研究面向大规模知识图谱数据的分布式图划分算法,该算法既要考虑按照知识图谱的图结构和知识语义信息作为图划分标准,尽可能地有利于支持知识图谱查询的快速执行,又要避免算法复杂度过高.其次,在知识图谱划分的基础上,提出分布式存储方案.需要考虑:是面向 OLTP 和 OLAP 设计两种不同存储方案,还是设计可以平衡不同类型查询的统一存储;可选的物理层实现框架包括分布式关系数据库存储层、分布式文件系统、分布式 Bigtable 系统和分布式键值存储库;扩展单机版的 RDF 图或属性图存储方案,使其适应分布式物理存储底层是一种可选思路.再次,还需要面向知识图谱查询处理设计不同的索引方案,比如,面向图模式匹配查询的索引、面向导航式路径查询的索引和面向分析型查询的 索引.
(3) 大规模知识图谱数据的分布式查询处理
(4) 知识图谱数据管理对于本体和知识推理的支持
(5) 大规模知识图谱的更新维护
(6) 大规模知识图谱的数据集成