多节点多 GPU:大规模使用 NVIDIA cuFFTMp FFT

早在2022年1月27日,NVIDIA 就发布了 cuFFTMp 抢先体验 (EA)。cuFFTMp 是 cuFFT 的多节点、多进程扩展,使科学家和工程师能够在百万兆次级算力平台上解决具有挑战性的问题。

FFT(快速傅里叶变换)广泛应用于各种领域,从分子动力学、信号处理、计算流体动力学 (CFD) 到无线多媒体和机器学习应用。借助 cuFFTMp,NVIDIA 现在不仅支持单个系统中的多个 GPU,还支持跨多个节点的多个 GPU。

图 1 显示 cuFFTMp 达到 1.8 PFlop/s 以上,超过该规模变换峰值机器带宽的 70%。

标题 图 1.Selene 集群上的 cuFFTMp(弱缩放)性能

 在图 2 中,问题大小保持不变,但 GPU 的数量从 8 个增加到 2048 个。您可以看到 cuFFTMp 成功地对问题进行了强扩展,将单精度时间从 8 个 GPU(1 个节点)的 78 毫秒增加到 2048 个 GPU(256 个节点)的 4 毫秒。

标题 图2.Selene 集群上的 cuFFTMp(强扩展)性能

 

图 1 和图 2 在 Selene 集群上运行。Selene 由 NVIDIA DGXA100、每个节点 8xA100-80GB 组成,带有 NVSwitch(300 GB/s/GPU,双向)和 Mellanox Infiniband HDR(200 GB/s/节点,双向)。使用 CUDA 11.4 和 NVIDIA HPC SDK 21.9 Docker 容器运行测试,该容器可在 nvcr.io/nvidia/nvhpc:21.9-runtime-cuda11.4-ubuntu20.04 上获得。GPU 应用程序时钟设置为最大值。

性能和可扩展性

众所周知

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

技术瘾君子1573

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值