gpu 测试软件,VASP 电子结构预测应用程序和 GPU 加速 | NVIDIA

最新推荐文章于 2024-07-25 11:55:02 发布

米诺大魔王

最新推荐文章于 2024-07-25 11:55:02 发布

阅读量1.4k

点赞数

文章标签： gpu 测试软件

本文介绍了如何通过GPU测试软件优化VASP（Vienna Ab initio Simulation Package）电子结构预测应用程序的性能。通过实验展示了在不同GPU进程分配和MPI映射策略下，对计算时间的影响。例如，每个GPU一个进程和每个GPU多个进程的配置，以及利用NVIDIA MPS（Multi-Process Service）服务实现GPU上的指令重叠，提高计算效率。在特定测试中，启用MPS和适当调整进程数量能显著减少计算时间，提升速度可达2.6倍。

摘要由CSDN通过智能技术生成

完成基准测试后，可以重置这些显卡，使它们以受支持的最高频率运行：

性能数据的免责声明

虽然已在生产系统上生成表示性能的数据，但它们仅用作指南以说明下面介绍的方法。请注意，您系统上的性能可能会不同，原因是 CPU 和GPU 的性能受到多个方面的影响。

最简单的方法：每个 GPU 一个进程

要使用我们系统中的所有 4 个 GPU，最简单的方法就是启动 VASP 的 4 个 MPI 进程，并让系统自动处理映射(即进程将在哪些 CPU 核心上运行)：

mpirun -n 4 ~/bin/vasp_gpu

英特尔 MPI 环境自动将进程固定到特定的 CPU 核心，这就使操作系统无法在作业执行期间将进程移到其他核心，从而防止在一些不利的情况下进行数据移动。但是，这样做仍可能导致获得的是次佳的解决方案，原因是所实现的 MPI 并不了解 GPU 拓扑。我们可以通过增加详细程度来研究进程固定：

mpirun -n 4 -genv I_MPI_DEBUG=4 ~/bin/vasp_gpu

查看输出，并与我们有关互连拓扑的发现进行比较，可以看到事情似乎并不理想：

...

[0] MPI startup():

Rank

Pid

Node name

Pin cpu

[0] MPI startup():

41587

hsw227

{16,17,18,19,20,21,22,23}

[0] MPI startup():

41588

hsw227

{24,25,26,27,28,29,30,31}

[0] MPI startup():

41589

hsw227

{0,1,2,3,4,5,6,7}

[0] MPI startup():

41590

hsw227

{8,9,10,11,12,13,14,15}

Using device 0 (rank 0, local rank 0, local size 4) : Tesla P100-PCIE-16GB

Using device 1 (rank 1, local rank 1, local size 4) : Tesla P100-PCIE-16GB

Using device 2 (rank 2, local rank 2, local size 4) : Tesla P100-PCIE-16GB

Using device 3 (rank 3, local rank 3, local size 4) : Tesla P100-PCIE-16GB

...

rank 0 使用 GPU0，但绑定到更远的 CPU 核心 16-23。rank 2 和 3 同样出现此问题。只有 rank 1 使用 GPU1 并固定到核心 24-31，从而提供最佳传输性能。

我们现在来看看一些实际的性能数据。如果使用我们系统中的两个 Intel® Xeon® E5-2698 v3 CPU 的所有 32 个核心，并且不进行任何 GPU 加速，则需要 607.142 秒来完成 siHugeShort 基准测试。1如果以这种默认但次佳的方式使用 4 个 GPU，执行时间将为 273.320 秒(速度提高 2.22 倍)。使用 VASP 中包含的以下指标快速知道计算的运行时间

1 如果您以前编译过 VASP 的仅限 CPU 的版本，则可以使用以下命令知道它在您的系统上要运行多长时间：mpirun -n 32 -env I_MPI_PIN_PROCESSOR_LIST=allcores:map=scatter ~/bin/vasp_std

grep Elapsed\ time OUTCAR

VASP 将 GPU 连续映射到 MPI rank 进程，同时忽略计算能力不足的 GPU(如果有的话)。通过这样做并且使用以下语法，我们可以手动控制 CPU 上的进程放置和分配 rank，让每个进程均使用具有最短内存传输路径的 GPU：

mpirun -n 4 -genv I_MPI_DEBUG=4 -env I_MPI_PIN_PROCESSOR_LIST=0,16,21,26 ~/bin/vasp_gpu

这样做并未改善系统性能(运行时间为 273.370 秒) ，原因可能是没有均衡地使用公共的 CPU 资源，例如内存带宽和缓存(3 个进程共享一个 CPU)。作为折衷，用户可以分配 rank，让它们在 CPU 插座之间均匀分布，但只有一个 rank 必须使用较慢的内存路径向 GPU 传输数据：

mpirun -n 4 -genv I_MPI_DEBUG=4 -env I_MPI_PIN_PROCESSOR_LIST=0,8,16,24 ~/b