多节点多 GPU：大规模使用 NVIDIA cuFFTMp FFT

本文链接：https://blog.csdn.net/qq_27815483/article/details/140350699

早在2022年1月27日，NVIDIA 就发布了 cuFFTMp 抢先体验（EA）。cuFFTMp 是 cuFFT 的多节点、多进程扩展，使科学家和工程师能够在百万兆次级算力平台上解决具有挑战性的问题。

FFT（快速傅里叶变换）广泛应用于各种领域，从分子动力学、信号处理、计算流体动力学（CFD）到无线多媒体和机器学习应用。借助 cuFFTMp，NVIDIA 现在不仅支持单个系统中的多个 GPU，还支持跨多个节点的多个 GPU。

图 1 显示 cuFFTMp 达到 1.8 PFlop/s 以上，超过该规模变换峰值机器带宽的 70%。

在图 2 中，问题大小保持不变，但 GPU 的数量从 8 个增加到 2048 个。您可以看到 cuFFTMp 成功地对问题进行了强扩展，将单精度时间从 8 个 GPU（1 个节点）的 78 毫秒增加到 2048 个 GPU（256 个节点）的 4 毫秒。

图 1 和图 2 在 Selene 集群上运行。Selene 由 NVIDIA DGXA100、每个节点 8xA100-80GB 组成，带有 NVSwitch（300 GB/s/GPU，双向）和 Mellanox Infiniband HDR（200 GB/s/节点，双向）。使用 CUDA 11.4 和 NVIDIA HPC SDK 21.9 Docker 容器运行测试，该容器可在 nvcr.io/nvidia/nvhpc:21.9-runtime-cuda11.4-ubuntu20.04 上获得。GPU 应用程序时钟设置为最大值。