常见GPU算力(3090&3090Ti,GA102-300&GA102-350)

一、硬件参数

30903090Ti
核心GA102-300GA102-350
架构AmpereAmpere
SM8284
CUDA Cores / SM128128
CUDA Cores / GPU1049610752
Tensor Cores / SM4 (3rd Gen)4 (3rd Gen)
Tensor Cores / GPU328 (3rd Gen)336 (3rd Gen)
GPU 加速频率1695 MHz1860 MHz
显存24 GB (GDDR6X)24 GB (GDDR6X)
显存位宽384 bit384 bit
显存速率19.5 Gbps21 Gbps
显存带宽936.2 GBps1008 GBps
一缓128 KB (per SM)128 KB (per SM)
二缓6 MB6 MB
TGP350 W450 W
制程Samsung 8N (8nm)Samsung 8N (8nm)

 

         注意到,完整 GA102 核心有 7 组 GPC,每组 GPC 包含 6 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GA102 核心共有 84 个 SM 单元,但 GA102-300 只开启其中的 82 个,GA102-350 开启全部的 84 个 SM 单元。每个 SM 单元中有 128 个 CUDA 计算单元,其中 64 个 CUDA 可以计算 FP32 或 INT32,另外 64 个只能计算 INT32。值得注意的是,从 3090 开始(包括后续的 4090 和 5090),每个 SM 中 只有 2 个 FP64 计算单元,这导致理论双精浮点算力只有单精浮点算力的 1/64 。

        每个 SM 单元中有 4 个 Tensor Core,因此 GA102-300 总共含有 328 个 Tensor Core,GA102-350 总共含有 336 个 Tensor Core。支持的数据类型有 FP16、BF16、TF32、INT8、INT4,不支持 FP64。

二、算力

1、CUDA Core 算力

浮点:TFLOPS

整型:TIOPS

30903090Ti
FP3235.5840.00
FP1635.5840.00
FP640.5560.625
BF1635.5840.00
INT3217.7920.00

2、Tensor Core 算力

浮点:TFLOPS

整型:TIOPS

稠密/稀疏

30903090Ti
FP16142 / 284160 / 320
BF1671 / 14280 / 160
TF3235.6 / 7140 / 80
INT8284 / 568320 / 640
INT4568 / 1136640 / 1280

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值