Gemini论文笔记

Sanzo00

已于 2023-02-23 08:27:02 修改

阅读量1.5k

点赞数 2

分类专栏： Paper 文章标签：分布式

于 2021-05-06 12:59:12 首次发布

本文链接：https://blog.csdn.net/henuyh/article/details/114197800

版权

Paper 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Gemini通过稀疏-稠密划分、块级扩展、压缩索引和NUMA感知设计，提升分布式图处理性能。它在PR和BC中表现优异，但在BFS和消息开销上有劣势。实验对比显示Gemini在多节点和内存效率上远超竞品。

摘要由CSDN通过智能技术生成

论文地址：osdi16/osdi16-zhu.pdf

代码笔记：sanzo.top/Paper/Gemini

介绍

（1）Gemini采用稀疏-稠密、信号-槽抽象，将push-pull混合模型从共享内存扩展到分布式场景。

（2）基于块划分模式，是一种低开销的扩展设计同时保持了顶点的局部访问。

（3）采用压缩顶点索引的双模式

（4）基于NUMA感知的子分区使节点内的访问更加高效

（5）位置感知的块划分和细粒度的work-stealing同时提高了节点内和节点间的负载平衡。

图处理抽象

顶点保存信息，边是不可修改的对象。

支持双向边和单向边，双向边转化为一对有向边。

图处理的执行时通过顶点沿边的更新，知道图状态收敛或者达到指定的迭代次数。

活跃顶点是将要更新的顶点，活跃边是活跃顶点的出边。

双更新传播模型

在图处理过程中，活跃边可能是dense或sparse。

例如CC在开始的时候是dense，经过几次迭代之后大部分的点接受到他们最终的label就会变为sparse的状态；SSSP开始的时候是sparse，活跃顶点增多就会变成dense，当算法接近收敛再次变为sparse状态。

sparse更适合用push模式（更新沿着活跃点的出边传递），dense更适合pull模式（顶点的更新通过搜集入边顶点的状态）。

Gemini采用Ligra提出的一种在push和pull自适应切换的方法，阈值为 $\frac{|E|}{20}$ ，区别在于Gemini将进行分区并分布到多个节点上，通过显式的消息传递进行通信和更新。

在这里插入图片描述

基于块的分区

在这里插入图片描述

上图的例子是将图上6个点，平均分为3个部分（白色为master，黑色为mirror），在dense模式下每个分区的mirror节点是分区中节点的出边邻居节点，这些mirror节点采用pull聚集当前分区节点的状态，然后更新远端的节点。

采用块划分可以很容易的通过边界判断节点的隶属关系，同时也简化了顶点数据表示，每个节点只负责实顶点数组的拥有部分并将其分配在连续的内存页中，不需要压缩顶点状态的空间消耗。

双模式的边表示

在这里插入图片描述

Gemini使用CSR和CSC表示图的状态，每个分区对边进行编号，sparse是指向分区的边，dense是当前分区指出的边。

通过Bitmap辅助sparse模式下的CSR的表示，标记指向当前分区的点，方便后续的判断。

采用双压缩辅助dense模式下的CSC的表示，保存当前分区指出的点vtx和对应边的偏移量。

位置感知的分区

Gemini的图分区同时考虑了顶点的局部性和边的密集型，根据 $\alpha|V_i| + |E_i^D|$ 来进行划分， $\alpha = 8 \times (p-1)$ 。

NUMA感知的子分区

利用NUMA的内存访问特性，在每个节点继续对图进行划分，来减少远程CPU内存的访问。

协同调度

Gemini将集群中的节点通过MPI组成一个环，使计算和通信重叠。

在这里插入图片描述

对于第一个分区来说的调度来说，共分为三个阶段，Batch沿着分区编号递增的方向发送，沿着分区编号递减的方向接受。

细粒度的Working-Stealing

虽然节点间的负载均衡通过Gemini的局部块划分来保证，但是当分区变小就不能很好的保证分区的平衡。

基于块分区方案可以对连续的顶点进行处理，提高了缓存利用率和消息批处理，结合OpenMP，Gemini的每个线程首先完成自己core的分区任务，然后通过原子操作获取其他分区的任务进行处理，这样虽然带来了一些开销，但是提高了节点内部的负载平衡。

在这里插入图片描述

作者的实验环境是 8 nodes, 2 sockets per node, 12 cores per socket, and 64 vertices per mini-chunk。

实验

作者使用了5种算法进行测试：PageRank（PR）、connected components（CC）、single source shortest path（SSSP）、breadth first search（BFS）、betweenness centrality（BC），PR执行20次迭代，其余的执行到算法收敛。

同时于Power Graph、GraphX、PowerLyra、Ligra、Galois进行对比。

使用的数据集为：

在这里插入图片描述