同步图运算模型
许多大数据都以图的形式存在,非图结构的大数据也通常会被转化为图数据结构进行分析。对于大型图数据的计算,一些常见的处理软件如Neo4j等采用的是遍历的方法,另一些采用的如Giraph、Pregel等则采用的是同步图运算的方式。
后者采用的同步图运算模型主要有两个特点,一是BSP(Bulk Synchronous Processing)模型,即块同步计算模型,其主要思想是将全部计算分为多个超步(Superstep),超步内部的多个运算单元进行分布式地并行计算,每一个超步结束之后进行全局同步。超步与超步之间存在依赖关系,上一个超步的运算产生下一个超步的输入。二是基于顶点的编程模型。在该模型下,图中的每一个顶点都视为一个计算节点,程序员通过实现一个compute函数,在每一个超步中对每一个顶点都进行调用,实现基于顶点的计算。函数的内容主要包含三个部分,一是接受来自其他顶点的消息,二是进行运算,三是向其他顶点发送消息。与compute函数的主要内容相似的是在PowerGraph中也存在这样的计算过程,但是被细分割成了Gather、Apply、Scatter三个步骤,当然这偏离了本文主要内容,暂不赘述。
图运算的停止与各个顶点的状态有关,顶点包括两种状态active和inactive,其状态转换可以参照下图。初始情况下顶点的状态都是active的。当所有的顶点都是inactive状态的时候本次运算结束