[PaperReading]*PSGraph: How Tencent trains extremely large-scale graphs with Spark?

腾讯TEG基于Spark和参数服务器PS的Angel平台,针对图计算优化,改善了Spark GraphX在分布式环境下的效率和空间利用。PSGraph通过将图数据分区并利用PS存储节点信息,减少了数据shuffle,提高了大型图算法如PageRank、CommonFriends、Fast Unfolding、Line和GraphSAGE的执行速度和空间效率。
摘要由CSDN通过智能技术生成

摘要

腾讯TEG在大数据机器学习以及数据挖掘方面,基于Spark,结合参数服务器PS开发了新平台Angel,在图计算方面对比Spark GraphX形成了新的训练模式,结合PS对参数的更新迭代,分布式环境下的数据通信做了新的设计。GraphX在分布式数据通信时,使用join操作导致多个worker之间的数据shuffle,使得模型更新变慢,而且临时数据导致空间利用率下降。而PSGraph使用PS可以有效降低这方面的时空消耗。

模型介绍

论文把图上的问题分为3类:

  1. 传统的图算法:PageRank,KCore,等
  2. 图嵌入算法:LINE,等
  3. 图神经网络算法:GCN,GraphSAGE,等
    在这里插入图片描述

首先介绍一下PSGraph针对图算法的大致处理思路:worker处理部分子图,需要的信息从ps上拉取,处理结束后更新ps,更新当前结果。

PSGraph模型为处理图问题,跟其它分布式图处理系统GraphX一样,需要将图进行partition的划分,只不过其多了参数服务器的数据划分过程。图的partition划分基于节点的index,每个partition中存储部分节点,以及该部分节点的邻居列表。ps上存储的数据存节点id与参数数据的map,ps上的partition可根据行和列进行划分。

算法举例

文章挑选了5

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值