【直观对比】RTX3090和RTX4090的计算能力的参数对比

1. 引言

随着大模型的火热,越来越多的人希望可以购买一个硬件进行大模型的推理,特别是在3090和4090显卡的对比上,需求比较大。目前已有的显卡对比,大多面向于高端的A/H100或者800系列的对比分析,如图所示。

项目A100H100L40SH200
架构AmpereHopperAda LovelaceHopper
发布时间2020202220232024
FP649.7 TFLOPS34 TFLOPS暂无34 TFLOPS
FP3219.5 TFLOPS67 TFLOPS91.6 TFLOPS67 TFLOPS
FP64 向量核心19.5 TFLOPS67 TFLOPS暂无67 TFLOPS
TF32 向量核心312 TFLOPS989 TFLOPS183 TFLOPS366* TFLOPS
BFLOAT16 向量核心624 TFLOPS1,979 TFLOPS362.05 TFLOPS733* TFLOPS
FP16 向量核心624 TFLOPS1,979 TFLOPS362.05 TFLOPS733* TFLOPS
FP8 向量核心不适用3,958 TFLOPS733 TFLOPS1,466* TFLOPS
INT8 向量核心1248 TOPS3,958 TOPS733 TFLOPS1,466* TFLOPS
INT4 向量核心暂无暂无733 TFLOPS1,466* TFLOPS
GPU 内存80 GB HBM2e80 GB48GB GDDR6,带有 ECC141GB HBM3e
GPU 内存带宽2,039 Gbps3.35 Tbps864 Gbps4.8 Tbps
解码器Not applicable7 NVDEC, 7 JPEGNot applicable7 NVDEC, 7 JPEG

但是,对于消费级的显卡的计算能力的参数对比还比较少,更多的是对比游戏或者跑分的。由于工作需要,特地辗转了多方网站,整理了3090和4090的性能参数对比图,附带A100的参数用于衔接。

属性RTX 4090RTX 3090A100 (SMX4-80G)
GPU架构AD102 (Ada Lovelace)GA102 (Ampere)GA100(Ampere)
GPCs (Graphics Processing Clusters)1177
TPCs (Texture Processing Clusters)641454
SMs (Streaming Multiprocessors)12882108
FP32 CUDA Cores16384104966912
INT32 CUDA Cores819252486912
Tensor Cores512328432
RT Cores12882N/A
Geometry Units6441N/A
TMUs (Texture Units)512328432
ROPs (Raster Operation Units)176112160
INT4 (TOPS)1321.2/2642.4568/11361248/2496
INT8 (TOPS)660.6/1321.2284/568624/1248
INT32 (TIPS)41.317.819.5
BF16 (TFLOPS)82.635.639
FP16 (TFLOPS)82.635.678
FP32 (TFLOPS)82.635.619.5
FP64 (TFLOPS)1.30.569.7
Tensor Core FP8 (TFLOPS)660.6/1321.2N/AN/A
Tensor Core FP16 (TFLOPS)330/660142/284312/624
Tensor Core TF32 (TFLOPS)82.6/165.235.6/71156/312

从表中可以看出,在目前最常用的FP16上,4090和A100是一样的。也就是说,如果只是部署一个7B的模型,并且开了FP16,那么两者的推理速度应该是大致相同的。另外,如果开的是BF16的话4090还可以更胜一筹,但是BF16这种新的半精度表示,需要新显卡才能只支持,最低需要30系列,20系列以下的显卡就无缘了。关于PF16和BF16的差异如图所示,简单来说BF16和FP32具有相同的整数位,但是小数位精度差了一半,但是在LLM时代,大量的exp操作会导致范围比精度更重要。具体可以参见《为什么很多新发布的LLM模型默认不用float16呢?》。
在这里插入图片描述

更新!Nvidia A10和RTX A6000

由于高端显卡被禁,目前主流的卡主要又沦为A10和A6000的天下了。为此,特地再添加这两款GPU的参数,供比较。

属性A10RTX A6000
GPU架构GA102GA102 (Ampere)
GPCs (Graphics Processing Clusters)-7
TPCs (Texture Processing Clusters)-42
SMs (Streaming Multiprocessors)-84
FP32 CUDA Cores921610752
Tensor Cores288336
RT Cores7284
TMUs (Texture Units)-336
ROPs (Raster Operation Units)-112
INT4 (TOPS)500/1000598.7/1197.4
INT8 (TOPS)250299.3/598.6
INT32 (TIPS)-18.7
BF16 (TFLOPS)12537.4
FP16 (TFLOPS)12537.4
FP32 (TFLOPS)31.237.4
Tensor Core FP16 (TFLOPS)125/250149.7/299.4
Tensor Core TF32 (TFLOPS)62.5/12574.8/149.6

参考文献

[1] https://developer.aliyun.com/article/1396336
[2] https://zh.wikipedia.org/wiki/NVIDIA_GeForce_30%E7%B3%BB%E5%88%97
[3] https://images.nvidia.cn/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf
[4] https://images.nvidia.cn/aem-dam/en-zz/Solutions/geforce/ampere/pdf/NVIDIA-ampere-GA102-GPU-Architecture-Whitepaper-V1.pdf#page=14.27

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI让世界更懂你

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值