基于神威·太湖之光的超大规模图计算系统“神图” 2019-12-16 14:10:29 作者：Fma

最新推荐文章于 2021-12-23 15:58:01 发布

Fmacloud

最新推荐文章于 2021-12-23 15:58:01 发布

阅读量1.6k

点赞数 1

分类专栏：大数据分析文章标签：人工智能大数据数据库机器学习编程语言

本文链接：https://blog.csdn.net/Fmacloud/article/details/103561992

版权

林恒博士介绍了超大规模图计算框架——神图，该系统利用神威·太湖之光在半分钟内处理70万亿条边的图数据，是2018年Gordon Bell决赛作品之一。神图通过度数感知的消息传播、超节点路由技术等解决大规模图计算的挑战，实现了高效并行处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
林恒博士拥有清华大学计算机科学博士学位（2018 年获得）和中山大学数学专业学士学位（2011 年获得），费马科技公司联合创始人。其研究兴趣包括异构体系结构、图计算和大规模计算。他基于神威·太湖之光开发的 Graph500 基准架构在 Graph500 异构架构排名（2016 年 6 月）中名列第一，在整体排名中名列第二。

以下为林恒博士在SC2018期间举办的 HPC Connection Workshop上，关于超大规模图计算系统神图的演讲摘要。林恒博士介绍了一个超大规模图计算框架——神图：它能够利用数百万个超级计算机内核，在半分钟内处理有多达 70 万亿条边的图数据。这也是入围 Gordon Bell 2018 决赛名单的六大作品之一。

以下是现场实录：

这是我在清华大学读博期间的工作，是与来自卡塔尔计算研究所、数学工程与先进计算国家重点实验室、苏黎世联邦理工学院、国家并行计算机工程与技术研究中心、北京搜狗科技发展公司和国家超算无锡中心的研究人员共同完成的。

我们看到图数据无处不在，人们现在越来越多地使用图计算。具体来讲，科技进步使我们能够处理更大的图。第一个例子是道路图，其中的道路是边，将作为顶点的城市连接起来。道路图上的计算执行的是一些熟悉的任务，比如导航、交通管理和城市规划。我们大家都熟悉另一种图，那就是社交网络图，我们可以在这些图上执行社区发现和民意分析等任务。网络图是另一种重要的图，我们每天使用搜索引擎时都会依靠它。

我们面临的一个常见问题是，图规模数据变得越来越大，我们现在看到的新图规模是以前根本无法处理的。例如，上面提到的图数据有数亿到数百万亿条边。此类规模问题超出了典型服务器和集群的计算能力，人们自然地想到了超级计算机！
在这里插入图片描述
以pagerank为例，介绍我们选择的图计算模型的背景。许多图计算任务都是迭代式的，会一直运行到状态收敛或达到一定的迭代次数之后。我们给出了执行一次pagerank迭代的伪代码。首先，每个活动的顶点基于其传出边而生成消息。然后，每个顶点沿它的边发送和接收消息，最终更新其状态，在这个例子中，也就是pagerank 值。
在这里插入图片描述
当有多于一个节点执行并行图处理时，通常会为每个节点分配图数据的一部分。因此，消息的生成需要与分类相结合，以将消息一起传送到相同节点。在并行处理中，我们会生成许多节点内消息，使大规模并行图处理在通信上遇到瓶颈。
在这里插入图片描述
让我们来看一个超大图数据的例子。这是搜狗搜索引擎提供的一个网络图，其中显示了中文网页和它们之间的链接。它有2730 亿个网页和 12 万亿个链接，占用了 137TB 硬盘空间。

处理这个具有空前规模的图数据会面临一些特定的新挑战。首先，它涉及海量的随机数据存取。其次，与传统HPC 相比，它具有更低的计算与内存存取比率。这个问题在大规模执行时更严重，导致了大量的随机点对点消息传递。最后，现实中的图数据是不规则的。它们常常具有幂律度分布，少部分顶点具有非常高的度数。这种情况随图规模变大而更加严重。这些是应用方面的大规模带来的挑战。
在这里插入图片描述
现在让我们看看系统方面的大规模带来的挑战。坦率地讲，超级计算机设计的初衷不是为了解决图计算问题。例如，我们的平台“神威·太湖之光”就一台典型的HPC机器，它连续两年在 TOP500 强中名列榜首，而这周滑落到第三名。它拥有 4 万多个节点，其异构