JanusGraph Data Model
以下内容来自官网。
JanusGraph采用邻接表存储图,具体的是存储了顶点的邻接表集合。以顶点为key,顶点的邻接表中包含所有的边,顶点属性以及边的属性。
这种存储结构,允许JanusGraph将数据存储在任何支持bigtable的存储后端中。关于bigtable与传统数据库的区别不太了解的请去查看这篇文章。
由于图是完整的包含关系、属性、顶点的,在存储时候需要对图进行分割,常用的分割方法包括:顶点分割,边分割。
- 顶点分割:根据顶点分割,每个边值存储一次。
- 边分割:根据边分割,以顶点为中心,边会存储两次。(Janusgraph以这种方式分割)存储两次能够存储边的方向,方便快速找到对端。
JanusGraph对Bigtable有一个要求:必须按照列对单元格进行排序,并且必须能够有效地检索列范围指定的单元格子集。
使用HBASE作为存储后端时,janusGraph按照Vertex id进行排序,因为HBASE原生的支持键排序。
JanusGraph Data Layout
官网给的janusgraph数据格式如下图所示:
JanusGraph将每个邻接表作为一行存储在底层存储后端。顶点id (JanusGraph唯一分配给每个顶点)是指向包含顶点邻接表的行的Key。每个边和属性都存储为行中的单个单元格,以便进行有效的插入和删除。因此,在特定存储后端中每行允许的最大单元格数也是JanusGraph可以针对此后端支持的顶点的最大程度。
Individual Edge Layout
每一个Edge和Property作为一个cell(或者说一列)存储在Vertex的邻接表中。通过序列化的技术,保证它们占用的存储空间尽可能的小,并且序列化可使列的字节顺序符合Edge Label的排序键。
上图表示一个Edgelabel序列化后的存储布局。深蓝色的方框表示使用可变长度编码方案编码的数字,以减少它们所消耗的字节数。红色方框表示一个或多个属性值(即对象),这些值通过相关属性键中引用的压缩元数据进行序列化。灰框表示未压缩的属性值(即序列化的对象)。关于Edge序列化的细节可以查看官网文档。
关于property的序列化,列中只包含property’s key id,property id 和property的值存储在value中,如果property key是一个list,则property id也会被存入列中。
实例演示
有一个比较好的实例,放在这里供大家学习,请点击链接。