常见GPU算力（H100，GH100）

最新推荐文章于 2025-04-14 18:04:39 发布

Dolphin期材

最新推荐文章于 2025-04-14 18:04:39 发布

阅读量1.3k

点赞数 3

文章标签： gpu算力

本文链接：https://blog.csdn.net/qq_45351564/article/details/145445839

版权

一、硬件参数

	H100 SXM5	H100 PCIe
核心	GH100	GH100
架构	Hopper	Hopper
SM	132	114
CUDA Cores / SM	128	128
CUDA Cores / GPU	16896	14592
FP32 Cores / SM	128	128
FP32 Cores / GPU	16896	14592
FP64 Cores / SM	64	64
FP64 Cores / GPU	8448	7296
INT32 Cores / SM	64	64
INT32 Cores / GPU	8448	7296
Tensor Core	4th	4th
Tensor Cores / SM	4	4
Tensor Cores / GPU	528	456
GPU 加速频率 (MHz)*	1830 / 1980	1620 / 1755
显存	80 GB HBM3	80 GB HBM2e
显存位宽 (bit)	5120	5120
显存带宽 (GBps)	3352	2039
一缓 (KB per SM)	256	256
二缓 (MB)	50	50
接口	SXM5	PCIe 5.0x16
TDP (W)	700	350
制程	TSMC 4N (5nm)	TSMC 4N (5nm)

* 第一项为 Tensor Core 计算 FP8、FP16、BF16、TF32 时的加速频率，第二项为 Tensor Core 计算 FP64 和 CUDA Core 计算 FP32、FP64 时的加速频率。

注意到，完整 GH100 核心有 8 组 GPC，每组 GPC 包含 9 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 GH100 核心共有 144 个 SM 单元，但 H100 SXM5 的 GH100 核心只开启其中的 132 个，H100 PCIe 的 GH100 核心只开启其中的 114 个。每个 SM 单元中有 128 个 CUDA 计算单元。每个 SM 单元中有 128 个 FP32 计算单元、64 个 INT32 计算单元和 64 个 FP64 计算单元。

每个 SM 单元中有 4 个 Tensor Core，因此 H100 SXM5 的 GH100 总共含有 528 个 Tensor Core，H100 PCIe 的 GH100 总共含有 456 个 Tensor Core。支持的数据类型有FP8、FP16、BF16、TF32、FP64、INT8、INT4。

二、算力

1、CUDA Core 算力

浮点：TFLOPS

整型：TIOPS

	H100 SXM5	H100 PCIe
FP32	66.9	51.2
FP16	133.8	102.4
FP64	33.5	25.6
BF16	133.8	102.4
INT32	33.5	25.6

2、Tensor Core 算力

浮点：TFLOPS

整型：TIOPS

稠密/稀疏

	H100 SXM5	H100 PCIe
FP8	1978.9 / 3957.8	1513 / 3026
FP16	989.4 / 1978.9	756 / 1513
BF16	989.4 / 1978.9	756 / 1513
TF32	494.7 / 989.4	378 / 756
FP64	66.9	51.2
INT8	1978.9 / 3957.8	1513 / 3026
INT4	3957.8 / 7915.6	3026 / 6052