摘要
腾讯TEG在大数据机器学习以及数据挖掘方面,基于Spark,结合参数服务器PS开发了新平台Angel,在图计算方面对比Spark GraphX形成了新的训练模式,结合PS对参数的更新迭代,分布式环境下的数据通信做了新的设计。GraphX在分布式数据通信时,使用join操作导致多个worker之间的数据shuffle,使得模型更新变慢,而且临时数据导致空间利用率下降。而PSGraph使用PS可以有效降低这方面的时空消耗。
模型介绍
论文把图上的问题分为3类:
- 传统的图算法:PageRank,KCore,等
- 图嵌入算法:LINE,等
- 图神经网络算法:GCN,GraphSAGE,等
首先介绍一下PSGraph针对图算法的大致处理思路:worker处理部分子图,需要的信息从ps上拉取,处理结束后更新ps,更新当前结果。
PSGraph模型为处理图问题,跟其它分布式图处理系统GraphX一样,需要将图进行partition的划分,只不过其多了参数服务器的数据划分过程。图的partition划分基于节点的index,每个partition中存储部分节点,以及该部分节点的邻居列表。ps上存储的数据存节点id与参数数据的map,ps上的partition可根据行和列进行划分。
算法举例
文章挑选了5