常见GPU算力(H100,GH100)

一、硬件参数

H100 SXM5H100 PCIe
核心GH100GH100
架构HopperHopper
SM132114
CUDA Cores / SM128128
CUDA Cores / GPU1689614592
FP32 Cores / SM128128
FP32 Cores / GPU1689614592
FP64 Cores / SM6464
FP64 Cores / GPU84487296
INT32 Cores / SM6464
INT32 Cores / GPU84487296
Tensor Core4th4th
Tensor Cores / SM44
Tensor Cores / GPU528456
GPU 加速频率 (MHz)*1830 / 19801620 / 1755
显存80 GB HBM380 GB HBM2e
显存位宽 (bit)51205120
显存带宽 (GBps)33522039
一缓 (KB per SM)256256
二缓 (MB)5050
接口SXM5PCIe 5.0x16
TDP (W)700350
制程TSMC 4N (5nm)TSMC 4N (5nm)

* 第一项为 Tensor Core 计算 FP8、FP16、BF16、TF32 时的加速频率,第二项为 Tensor Core 计算 FP64 和 CUDA Core 计算 FP32、FP64 时的加速频率。

         注意到,完整 GH100 核心有 8 组 GPC,每组 GPC 包含 9 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GH100 核心共有 144 个 SM 单元,但 H100 SXM5 的 GH100 核心只开启其中的 132 个,H100 PCIe 的 GH100 核心只开启其中的 114 个。每个 SM 单元中有 128 个 CUDA 计算单元。每个 SM 单元中有 128 个 FP32 计算单元、64 个 INT32 计算单元和 64 个 FP64 计算单元。

        每个 SM 单元中有 4 个 Tensor Core,因此 H100 SXM5 的 GH100 总共含有 528 个 Tensor Core,H100 PCIe 的 GH100 总共含有 456 个 Tensor Core。支持的数据类型有FP8、FP16、BF16、TF32、FP64、INT8、INT4。

二、算力

1、CUDA Core 算力

浮点:TFLOPS

整型:TIOPS

H100 SXM5H100 PCIe
FP3266.951.2
FP16133.8102.4
FP6433.525.6
BF16133.8102.4
INT3233.525.6

2、Tensor Core 算力

浮点:TFLOPS

整型:TIOPS

稠密/稀疏

H100 SXM5H100 PCIe
FP81978.9 / 3957.81513 / 3026
FP16989.4 / 1978.9756 / 1513
BF16989.4 / 1978.9756 / 1513
TF32494.7 / 989.4378 / 756
FP6466.951.2
INT81978.9 / 3957.81513 / 3026
INT43957.8 / 7915.63026 / 6052

### Nvidia H100 H800 GPU 差异对比 #### 性能规格比较 HGX H100 结合多个H100 GPU高速NVLink/NVSwitch互连,创建世界上最强的扩展服务器。该平台提供4-GPU或8-GPU配置,其中四GPU配置支持全互联点对点NVLink;八GPU配置则通过NVSwitch实现全GPUGPU带宽[^1]。相比之下,H800在带宽支持的互连技术方面有所不足。 采用InfiniBand互连的H100可提供比之前A100型号高达30倍的性能提升。当与NVIDIA Grace CPU搭配使用时,可以达到900GB/s的总带宽,这比PCIe Gen5互连快7倍。这意味着相比于当前最快的服务器,它提供了高出30倍的总带宽,并且对于处理TB级数据的应用程序来说,性能提升了7倍[^2]。然而,这些特性并未提及于H800的相关描述中,暗示着后者在这方面的表现可能较为逊色。 #### 安全性增强 自从Volta V100 Tensor Core GPU起,NVIDIA在其设备上运行的固件中加入了AES身份验证功能,以确保启动固件的安全性完整性不受损害。这一措施同样应用于最新的H100系列之中[^3]。虽然具体提到H800是否具备相同级别的安全性保护的信息较少,但从产品定位上看,高端产品的安全机制通常也会下放到较低端的产品线内,不过具体的实施程度可能会有所不同。 #### 应用场景适用度 从实际应用角度来看,H100特别适合用于大型AI模型训练任务,比如OpenAI的GPT模型或是Google的Pathways项目中的高性能需求环境。在这里,H100不仅能够加速收敛过程还能提高计精度,进而有效减少训练所需时间改善最终成果的质量[^4]。相反地,考虑到成本效益以及特定工作负载的要求,H800更倾向于满足中小型规模模型训练或者是执行AI推理任务的需求。这类情况下,尽管整体性能不及前者强大,但对于预有限或者不需要极致性能的情况而言,仍然是一个性价比很高的选项。 ```python # Python伪代码展示两者理论峰值浮点运差距(假设) h100_flops = 32 * (10 ** 15) # 单位:petaFLOPS h800_flops = h100_flops / 4 # 理论估值,实际情况会因架构不同而变化 print(f"H100理论峰值浮点运约为{h100_flops} FLOPS, 而H800大约为{h800_flops} FLOPS.") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值