常见GPU算力（3090&3090Ti，GA102-300&GA102-350）

最新推荐文章于 2025-05-13 06:30:00 发布

Dolphin期材

最新推荐文章于 2025-05-13 06:30:00 发布

阅读量1.3k

点赞数 6

文章标签： gpu算力

本文链接：https://blog.csdn.net/qq_45351564/article/details/145427915

版权

一、硬件参数

	3090	3090Ti
核心	GA102-300	GA102-350
架构	Ampere	Ampere
SM	82	84
CUDA Cores / SM	128	128
CUDA Cores / GPU	10496	10752
Tensor Cores / SM	4 (3rd Gen)	4 (3rd Gen)
Tensor Cores / GPU	328 (3rd Gen)	336 (3rd Gen)
GPU 加速频率	1695 MHz	1860 MHz
显存	24 GB (GDDR6X)	24 GB (GDDR6X)
显存位宽	384 bit	384 bit
显存速率	19.5 Gbps	21 Gbps
显存带宽	936.2 GBps	1008 GBps
一缓	128 KB (per SM)	128 KB (per SM)
二缓	6 MB	6 MB
TGP	350 W	450 W
制程	Samsung 8N (8nm)	Samsung 8N (8nm)

注意到，完整 GA102 核心有 7 组 GPC，每组 GPC 包含 6 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 GA102 核心共有 84 个 SM 单元，但 GA102-300 只开启其中的 82 个，GA102-350 开启全部的 84 个 SM 单元。每个 SM 单元中有 128 个 CUDA 计算单元，其中 64 个 CUDA 可以计算 FP32 或 INT32，另外 64 个只能计算 INT32。值得注意的是，从 3090 开始（包括后续的 4090 和 5090），每个 SM 中只有 2 个 FP64 计算单元，这导致理论双精浮点算力只有单精浮点算力的 1/64 。

每个 SM 单元中有 4 个 Tensor Core，因此 GA102-300 总共含有 328 个 Tensor Core，GA102-350 总共含有 336 个 Tensor Core。支持的数据类型有 FP16、BF16、TF32、INT8、INT4，不支持 FP64。

二、算力

1、CUDA Core 算力

浮点：TFLOPS

整型：TIOPS