基于神威·太湖之光的超大规模图计算系统“神图” 2019-12-16 14:10:29 作者:Fma

在这里插入图片描述
林恒博士拥有清华大学计算机科学博士学位(2018 年获得)和中山大学数学专业学士学位(2011 年获得),费马科技公司联合创始人。其研究兴趣包括异构体系结构、图计算和大规模计算。他基于神威·太湖之光开发的 Graph500 基准架构在 Graph500 异构架构排名(2016 年 6 月)中名列第一,在整体排名中名列第二。

以下为林恒博士在SC2018期间举办的 HPC Connection Workshop上,关于超大规模图计算系统神图的演讲摘要。林恒博士介绍了一个超大规模图计算框架——神图:它能够利用数百万个超级计算机内核,在半分钟内处理有多达 70 万亿条边的图数据。这也是入围 Gordon Bell 2018 决赛名单的六大作品之一。

以下是现场实录:

这是我在清华大学读博期间的工作,是与来自卡塔尔计算研究所、数学工程与先进计算国家重点实验室、苏黎世联邦理工学院、国家并行计算机工程与技术研究中心、北京搜狗科技发展公司和国家超算无锡中心的研究人员共同完成的。

我们看到图数据无处不在,人们现在越来越多地使用图计算。具体来讲,科技进步使我们能够处理更大的图。第一个例子是道路图,其中的道路是边,将作为顶点的城市连接起来。道路图上的计算执行的是一些熟悉的任务,比如导航、交通管理和城市规划。我们大家都熟悉另一种图,那就是社交网络图,我们可以在这些图上执行社区发现和民意分析等任务。网络图是另一种重要的图,我们每天使用搜索引擎时都会依靠它。

我们面临的一个常见问题是,图规模数据变得越来越大,我们现在看到的新图规模是以前根本无法处理的。例如,上面提到的图数据有数亿到数百万亿条边。此类规模问题超出了典型服务器和集群的计算能力,人们自然地想到了超级计算机!
在这里插入图片描述
以pagerank为例,介绍我们选择的图计算模型的背景。许多图计算任务都是迭代式的,会一直运行到状态收敛或达到一定的迭代次数之后。我们给出了执行一次pagerank迭代的伪代码。首先,每个活动的顶点基于其传出边而生成消息。然后,每个顶点沿它的边发送和接收消息,最终更新其状态,在这个例子中,也就是pagerank 值。
在这里插入图片描述
当有多于一个节点执行并行图处理时,通常会为每个节点分配图数据的一部分。因此,消息的生成需要与分类相结合,以将消息一起传送到相同节点。在并行处理中,我们会生成许多节点内消息,使大规模并行图处理在通信上遇到瓶颈。
在这里插入图片描述
让我们来看一个超大图数据的例子。这是搜狗搜索引擎提供的一个网络图,其中显示了中文网页和它们之间的链接。它有2730 亿个网页和 12 万亿个链接,占用了 137TB 硬盘空间。

处理这个具有空前规模的图数据会面临一些特定的新挑战。首先,它涉及海量的随机数据存取。其次,与传统HPC 相比,它具有更低的计算与内存存取比率。这个问题在大规模执行时更严重,导致了大量的随机点对点消息传递。最后,现实中的图数据是不规则的。它们常常具有幂律度分布,少部分顶点具有非常高的度数。这种情况随图规模变大而更加严重。这些是应用方面的大规模带来的挑战。
在这里插入图片描述
现在让我们看看系统方面的大规模带来的挑战。坦率地讲,超级计算机设计的初衷不是为了解决图计算问题。例如,我们的平台“神威·太湖之光”就一台典型的HPC机器,它连续两年在 TOP500 强中名列榜首,而这周滑落到第三名。它拥有 4 万多个节点,其异构

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值