Design Data-Intensive Applications 读书笔记四 类图数据模型

本文探讨了图数据模型在处理复杂关系时的优势,介绍了属性图和元组存储模型,以及如何使用Cypher和SQL查询图数据。通过案例展示了如何用图数据库表示社交网络、网络图和道路图等。此外,还提到了图的查询语言,如Cypher、SPARQL和Datalog,以及它们与传统SQL的区别。图数据模型能够灵活应对不断变化的数据结构,适用于处理多对多关系的数据场景。
摘要由CSDN通过智能技术生成

类似图的数据模型

早先我们看到多对多关系是区分不同数据结构的一个关键。如果你的应用绝大多数都是一对多关系,后者记录间没有关系,那么文档模型是合适的。

但是如果你的数据中多对多关系很普遍呢?关系模型只能处理简单的多对多关系,对着数据的连接变得复杂,应该使用图表模型。

一个图由两种东西组成:顶点(节点或者实体)和向量(关联或者轨迹)。很多类型的数据适用于用图结构建模。典型例子:

社会网络:顶点是人,向量表示人互相认识。

网络图:顶点是网页,向量表示连接至其他HTML的链接

道路图:顶点是交叉点,向量表示它们之间的道路。

很多算法可以操作这些图:比如,汽车导航系统能够在道路网上找到两点间的最短距离。PageRank能够用于网络图来计算网页的流行度,然后给搜索结果排序。这些例子中,所有图表示某些事物。但是图不仅仅是在单一数据库中存储同质化的物体,他能够存储不同类的物体。比如,Facebook使用不同类的点和向量维护了一个单一的图:顶点表示人,位置,活动,登录,评论;向量表示人之间为好友,在那个地点登录,谁评论了谁的动态,谁参加了活动等等。

在图中构建和查询数据的方法与之前有所不同。这节我们讨论属性图模型(Neo4j,Titan,和InfiniteGraph)和元祖存储模型(Datomic,AllegroGraph等)。我们介绍图的三种声明式查询语句:Cypher,SPARQL,和Datalog。此外还有命令式查询语句如Gremlin和图处理框架Pregel。

属性图

属性图模型中,每个顶点由以下组成:独一无二的标志符;一组流出的向量;一组流入的向量;属性集合(键值对)

向量有以下组成:独一无二的标志符;向量开始的节点(尾节点);向量结束的节点(头节点);描述两个节点关系的标签;属性集合(键值对)。

你可以想象图由两个关系型表格存储,一个存储点,一个存储向量。,如下所示(这是使用PostgreSQL json数据类型来存储每个向量和点)。头尾节点存储在每个向量里;如果你想找到入一个节点向量和出向量的集合,你可以使用 head_vertex 或者 tail_vertex查询向量表。

这些特性能够让图处理复杂的数据模型。表2-5展示了很难用传统关联型模型表示的事物,例如不同国家的区域划分(法国有départements 和 régions),美国有counties 和states ;怪异的历史,比如一个国家处在另一个国家之中(忽视现在复杂的领土纠纷),数据层次的多变(Lucy现在的居住地址是城市,但是出生地却是用州表示)

你可以扩展图的用途,来包含Lucy和Alain的其他方面。比如,你可以用它来指出他们对哪些食物过敏(引入点表示过敏源,向量连接人和过敏源表示对此过敏),用过敏源和一组点表示哪些食物包含过敏源。然后你可以写一个查询来找出每个人吃哪些东西安全,图结构能够轻易地容纳改变。

Cyper查询语句

Cyper是用于属性图数据结构的查询语句。Neo4j数据库创建的。

下图示例显示了怎么Cyper查询怎么将数据插入图数据库。图的其他部分能够使用类似的方法插入。

当所有的向量和顶点添加到数据库,我们可以开始问以下问题:找到所有从美国移民至欧洲的人的姓名。更准确的说,我们要找到所有的向量,其中BORN_IN顶点指向US内的地区,LIVING_IN顶点指向欧洲内的地区,然后返回这些向量的 name 属性。

下图示例显示如何表示Cyper查询功能,在MATH 语句中相同箭头用来找到路径 ,(person) -[:BORN_IN] -> () 匹配任意的与 BORN

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值