在深度学习模型训练中,数据通常以Tensor的形式存储。因此,在评估显卡性能时,特别需要关注其在处理Tensor运算时的表现,尤其是针对Tensor BF16、Tensor FP16和Tensor FP32等不同精度格式下的计算能力。这些性能指标直接关系到模型的训练速度与效率,对于选择适合特定任务需求的硬件至关重要。具体对比结果如下所示:
TFLOPS 是 "TeraFLOPS" 的缩写,其中 "Tera" 表示万亿(10^12),而 "FLOPS" 代表 "Floating Point Operations Per Second",即每秒浮点运算次数。因此,TFLOPS 就是指每秒万亿次浮点运算。
注意: 个别显卡拥有多种通信接口(如SXM4/SXM5和PCIE),通过上述接口都能实现多GPU的互联互通,但两者的能耗、显卡间传输速率以及主板兼容性有所不同。
以H100 SXM5和H100 PCIe为例说明:
功耗:
• NVIDIA H100 SXM5:最高功耗约为 700W,适合有强大电力供应和散热能力的服务器。• NVIDIA H100 PCIe:最高功耗约为 350W,比 SXM5 版本低,适合电力和散热资源较为有限的系统。
性能差异:
-
H100 SXM5:由于采用了更高效的散热设计和更高功率预算,SXM5 版本通常具有更高的性能。例如,SXM5 版本的功率上限高达 700W,因此在计算能力和吞吐量方面往往更强。
-
内存带宽:SXM5 版本通常支持更高的内存带宽,具体可达到 3.35 TB/s。
-
NVLink 支持:SXM5 版本支持 NVLink,这使得多块 GPU 之间可以通过高速互联进行数据交换,带宽可以高达 900GB/s(双向),非常适合需要多 GPU 协同计算的任务。
- H100 PCIe:由于 PCIe 接口的功率限制,PCIe 版本的功耗通常限制在 350W,因此整体性能可能略低于 SXM5 版本。
- 内存带宽:PCIe 版本的内存带宽相对较低,约为 2 TB/s。
- NVLink 支持:PCIe 版本的 NVLink 通常通过 PCIe 总线进行通信,带宽和互联能力低于 SXM5 的 NVLink。