2022年6月 Frontier 获得性能第一的论文翻译

为百万兆级加速架构做高性能 Linpack 优化

摘要


我们详细叙述了在 rocHPL 中做的性能优化,rocHPL 是 AMD 对 HPL 基准的开源实现,主要是针对节点进行优化的架构,是为百万兆级系统而设计的,比如:Frontier suppercomputer。
这个实现充分利用了节点上的使用高吞吐量的 GPU 加速器的高度优化的线性代数库,同时也使用了全部的CPU槽,执行延时敏感的分解阶段。
我们详述了难能可贵的性能挺高,例如一个多线程的方法在CPU 上计算 panel 的分解阶段,再例如,多个阶段之间分享节点上的 CPU 核的时间,再例如有几个优化用来隐藏 MPI 通信的时间。
我们展示了这个 HPL 基准的实现的性能结果,既在橡树岭国家实验室的Frontier 抢先体验版集群的单节点上进行了测试,也扩展到多节点上进行了测试。

1,简介


在2022年6月,坐落在 橡树岭国家实验室的 Frontier 超级计算机,首次亮相在超级计算机 Top500 名单榜,并且以HPL 基准 1.1EFLOPS的成绩位居榜首。 分数是上一届榜首的两倍多,Frontier 是第一个在 HPL 基准分数上超过 1 EFLOPS 的超级计算机,这使得它成为第一个 百万兆计算机。不久之后,AMD就将 rocHPL 开源了,大家都可以自由获得。
rocHPL 的一个变体,优化了通信性能,由 HPE 提供,在 Frontier 上面获得了超过 1EFLOPS 的分数。
在这篇论文中,我们详述这些性能优化的大部分,来帮助达到这个分数,我们希望这些优化能够提供有用的信息来帮助 用户 在异构系统上优化 HPL。

HPL是众多基准测试中的一个,用来衡量计算机系统某些方面的性能。其他通用的基准包括HPCG基准,它侧重于系统的主存储器带宽和系统级的 allreduce 的性能;还包括HPL-MxP基准,它侧重于系统在混合精度和低精度数学计算的吞吐率。
与这些基准一起,HPL 侧重于一个计算机系统的如下几个方面:64-bit 浮点数的计算速度,网络带宽,网络延迟。这使得 HPL 成为对新的计算系统的可靠性和整体性能的一个难以置信的有用的压力测试基准。
Frontier 在 HPL 基准上获得的高的 FLOP 速度,几乎完全是得益于它基于 GPU 加速的节点架构和网络的速度。
在高性能计算中使用加速器,是越来越流行的趋势。实际上,在2022年6月的超级计算机 TOP500 的名单中,前十名中,有7个是使用基于 GPU 加速的节点架构。以 Frontier 为例,每个节点由一个64 核的 AMD EPYC CPU,和4个 AMD Instict MI250X GPU 加速器。EPYC CPU 和 MI250X GPU 加速器都充分利用了 AMD 先进的 MCMs     打包技术。每一路 CPU 由八个8核心的 CCD 以及 IO-die组成,同时,每个 MI250 GPU 由两个GCDs组成。两个 GCDs之间是互联的,同时也连接到 CPU 槽, 这都是通过 AMD Infinity Fabric 实现的。
基于这样的节点架构,MI250X 加速器在每个 Frontier 节点中贡献了 98%以上的峰值 FLOPS 算力。

在 HPL 基准中执行的计算是求解一个随机的 NxN的线性方程组,使用的是 带选主元的分块的高斯消去法。其中系数矩阵 是 NxN,我们称之为矩阵 A,分布于 PxQ 的 MPI 进程网格中,基于 2维循环分块分布策略实现加载均衡。为了让 HPL 能够充分利用 GPU 加速器的高 FLOPS 算力,需要仔细考量算法实现的4个阶段,每个阶段都有不同的计算特性。这四个阶段如下:


1,FACT
panel 分解,

2,LBCAST

3,RS

4,UPDATE

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值