带标签的属性图模型
特征:
- 包含节点和联系
- 节点上有属性(键值对)
- 节点可以有一个或多个标签
- 联系有名字和方向,并总是有一个开始节点和结束节点
- 联系也可以有属性
主流的图模型有三种:属性图、资源描述框架(RDF)三元组和超图。
原生图存储的好处是,它的栈是专门为性能和扩展性设计建造的。但相对的,非原生图存储常建立在非常成熟的非图后端(如mysql)之上,运维团队对它们的特性烂熟于心。原生图处理(免索引邻接)虽然在遍历查询时性能优势大,但代价是一些未使用遍历的查询会比较困难,并且占用巨大的内存。
图计算引擎最出名的有内存的、单机的图计算引擎Cassovary,以及分布式的图计算引擎Pegasus和Giraph。大多数分布式图计算引擎都是基于Google发布的Pregel白皮书,讲述了Google如何利用图计算引擎来计算网页排名。
数据导入
Neo4j使用neo4j-import进行数据的初始导入
进行数据的批量导入,可以使用cypher的特定语句。load csv可以导入少量的数据,导入大量数据时,需要用到PERIODIC COMMIT命令来将大事务分解成小事务以改善导入性能。
MERGE比较像MATCH和CREATE的混合。如果MERGE语句中描述的模式在图中已经存在,语句描述的标示符将被绑定到这个存在的数据上,这就好比MATCH。如果它描述的模式在图中不存在,那么MERGE会先创建它,这就好比CREATE。
如果用MERGE匹配存在的数据,模式中所有的数据必须都在图中存在;否则,MERGE会创建一个完全模式得全新实例,所以如果只是部分存在,将会导致重复数据的情况。使用MERGE时,先建立节点,再建立联系,这样有先后的使用多个MERGE可以避免重复数据