一图看透:910B、H20、A100、H100、H200性能对比!

写在前面

小弟最近需要去购买一些服务器,但是网上的一些显卡性能感觉都是大抄特抄,根本没有具体到显卡的型号,所以本人去Nvidia的官方文档记录了一些数据

PS:华子的910B网上找不到官方数据,智能靠口口相传了

主流服务器GPU性能

项目

910B

H20 HGX

A100 HGX

H100 SXM

H200 SXM

架构

-

Hopper

Ampere

Hopper

Hopper

发布时间

2023

2024

2020

2022

2024

GPU内存

64GB

96GB

80GB

80GB

141GB

GPU内存带宽

-

4.0TB/s

2039GB/s

3.35TB/s

4.8TB/s

TF32(TFLOPS)

-

74

156

989

989

FP16(TFLOPS)

320*

148

312

1979

1979

BF16 (TFLOPS)

-

148

312

1979

1979

INT8 (TOPS)

640*

296

624

3958

3958

INT4(TOPS)

-

-

1248

-

-

  • *表示数据来源于网络,并非官方文档
  • SXM(Scalable Link Interface)是一种用于数据中心和超级计算机的高带宽、低延迟的接口标准,支持更高的功率和更高的带宽。SXM卡通常插入到支持NVIDIA SXM接口的服务器或工作站中。
  • NVL(NVIDIA Link)是一种适配卡,主要设计用于与 NVIDIA DGX 系列服务器和其他云计算平台配合工作。它的接口通常与标准的 PCIe插槽兼容,可以更容易地集成到现有的企业和云计算架构中
  • HGX就是使用的SXM接口

其实对于我们训模型来说,主要关注FP16、BF16、INT8的速度即可,其他的性能我觉得都不太重要。

模型所需显存

  • 模型权重占用:在BF16精度下,1B模型所需显存约为2G,即70B的模型大约需要140G显存
  • 前向计算开销:通常在模型权重的20%左右(经验估算)
  • 对于一个72B的模型,推理所需的显存为2*72*1.2=172.8G
  • 不同的框架所需显存会略有差别,如vllm使用KV Cache加速推理,本质上是用显存换取时间

下面是一些模型估算的显存占用

模型

需要显存

Qwen2.5 72B-Inst.

172.8G

R1-Distill-Qwen-32B

76.8G

R1-Distill-Qwen-14B

33.6G

R1-Distill-Qwen-7B

16.8G

### H20 和 A100性能对比 #### 浮点运算能力 H20 单卡训练的关键算力相比 A100 大幅下降,在不同精度下的表现如下: - **FP64 (双精度浮点)**:H20性能大约只有 A100 的 10%[^2]。 - **FP32 (单精度浮点)**:H20 达到 A100 性能的大约 40%。 - **TF32 Tensor Core / FP32**:H20 表现接近于 A100 的 50% 左右。 #### 整数运算能力和张量核心性能 对于整型数据处理以及特定类型的矩阵乘法加速,两者之间的差距同样显著: - **INT8**: H20 实现了 A100 约 40% 的效率。 - **FP16 Tensor Core**: 同样保持在 A100 的 40% 水平上。 这些差异反映了美国出口管制政策下硬件设计上的限制措施。尽管如此,考虑到当前市场环境和技术发展状况,H20 对于许多应用场景而言仍然是个可行的选择,尤其是在资源受限的情况下寻求性价比平衡时。 ```python import matplotlib.pyplot as plt # 定义性能指标名称及其对应的百分比提升 performance_metrics = ['FP64', 'FP32', 'TF32 TC/FP32', 'FP16 TC', 'INT8'] h20_performance_percentage = [10, 40, 50, 40, 40] plt.bar(performance_metrics, h20_performance_percentage) plt.xlabel('Performance Metrics') plt.ylabel('Percentage of A100 Performance (%)') plt.title('Comparison Between NVIDIA H20 and A100 on Various Precision Levels') for i in range(len(h20_performance_percentage)): plt.text(i, h20_performance_percentage[i], str(h20_performance_percentage[i])+'%', ha='center', va='bottom') plt.show() ``` 此展示了相对于A100的不同计算模式下H20所达到的具体比例,直观体现了两者的性能区别
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小火汁猛猛

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值