写在前面
小弟最近需要去购买一些服务器,但是网上的一些显卡性能感觉都是大抄特抄,根本没有具体到显卡的型号,所以本人去Nvidia的官方文档记录了一些数据
PS:华子的910B网上找不到官方数据,智能靠口口相传了
主流服务器GPU性能
项目 | 910B | H20 HGX | A100 HGX | H100 SXM | H200 SXM |
架构 | - | Hopper | Ampere | Hopper | Hopper |
发布时间 | 2023 | 2024 | 2020 | 2022 | 2024 |
GPU内存 | 64GB | 96GB | 80GB | 80GB | 141GB |
GPU内存带宽 | - | 4.0TB/s | 2039GB/s | 3.35TB/s | 4.8TB/s |
TF32(TFLOPS) | - | 74 | 156 | 989 | 989 |
FP16(TFLOPS) | 320* | 148 | 312 | 1979 | 1979 |
BF16 (TFLOPS) | - | 148 | 312 | 1979 | 1979 |
INT8 (TOPS) | 640* | 296 | 624 | 3958 | 3958 |
INT4(TOPS) | - | - | 1248 | - | - |
- *表示数据来源于网络,并非官方文档
- SXM(Scalable Link Interface)是一种用于数据中心和超级计算机的高带宽、低延迟的接口标准,支持更高的功率和更高的带宽。SXM卡通常插入到支持NVIDIA SXM接口的服务器或工作站中。
- NVL(NVIDIA Link)是一种适配卡,主要设计用于与 NVIDIA DGX 系列服务器和其他云计算平台配合工作。它的接口通常与标准的 PCIe插槽兼容,可以更容易地集成到现有的企业和云计算架构中
- HGX就是使用的SXM接口
其实对于我们训模型来说,主要关注FP16、BF16、INT8的速度即可,其他的性能我觉得都不太重要。
模型所需显存
- 模型权重占用:在BF16精度下,1B模型所需显存约为2G,即70B的模型大约需要140G显存
- 前向计算开销:通常在模型权重的20%左右(经验估算)
- 对于一个72B的模型,推理所需的显存为2*72*1.2=172.8G
- 不同的框架所需显存会略有差别,如vllm使用KV Cache加速推理,本质上是用显存换取时间
下面是一些模型估算的显存占用
模型 | 需要显存 |
Qwen2.5 72B-Inst. | 172.8G |
R1-Distill-Qwen-32B | 76.8G |
R1-Distill-Qwen-14B | 33.6G |
R1-Distill-Qwen-7B | 16.8G |