一图看透：910B、H20、A100、H100、H200性能对比！

最新推荐文章于 2025-04-06 19:39:40 发布

小火汁猛猛

最新推荐文章于 2025-04-06 19:39:40 发布

阅读量4.5k

点赞数 11

文章标签：人工智能深度学习 transformer pytorch 服务器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42068614/article/details/146016873

版权

写在前面

小弟最近需要去购买一些服务器，但是网上的一些显卡性能感觉都是大抄特抄，根本没有具体到显卡的型号，所以本人去Nvidia的官方文档记录了一些数据

PS：华子的910B网上找不到官方数据，智能靠口口相传了

主流服务器GPU性能

项目	910B	H20 HGX	A100 HGX	H100 SXM	H200 SXM
架构	-	Hopper	Ampere	Hopper	Hopper
发布时间	2023	2024	2020	2022	2024
GPU内存	64GB	96GB	80GB	80GB	141GB
GPU内存带宽	-	4.0TB/s	2039GB/s	3.35TB/s	4.8TB/s
TF32（TFLOPS）	-	74	156	989	989
FP16（TFLOPS）	320*	148	312	1979	1979
BF16 (TFLOPS)	-	148	312	1979	1979
INT8 (TOPS)	640*	296	624	3958	3958
INT4（TOPS）	-	-	1248	-	-

*表示数据来源于网络，并非官方文档
SXM（Scalable Link Interface）是一种用于数据中心和超级计算机的高带宽、低延迟的接口标准，支持更高的功率和更高的带宽。SXM卡通常插入到支持NVIDIA SXM接口的服务器或工作站中。
NVL（NVIDIA Link）是一种适配卡，主要设计用于与 NVIDIA DGX 系列服务器和其他云计算平台配合工作。它的接口通常与标准的 PCIe插槽兼容，可以更容易地集成到现有的企业和云计算架构中
HGX就是使用的SXM接口

其实对于我们训模型来说，主要关注FP16、BF16、INT8的速度即可，其他的性能我觉得都不太重要。

模型所需显存

模型权重占用：在BF16精度下，1B模型所需显存约为2G，即70B的模型大约需要140G显存
前向计算开销：通常在模型权重的20%左右（经验估算）
对于一个72B的模型，推理所需的显存为2*72*1.2=172.8G
不同的框架所需显存会略有差别，如vllm使用KV Cache加速推理，本质上是用显存换取时间

下面是一些模型估算的显存占用

模型	需要显存
Qwen2.5 72B-Inst.	172.8G
R1-Distill-Qwen-32B	76.8G
R1-Distill-Qwen-14B	33.6G
R1-Distill-Qwen-7B	16.8G

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小火汁猛猛 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。