常见GPU算力（A100，GA100）

Dolphin期材

已于 2025-02-06 11:20:35 修改

阅读量818

点赞数 4

文章标签： gpu算力

于 2025-02-04 10:44:40 首次发布

本文链接：https://blog.csdn.net/qq_45351564/article/details/145437611

版权

一、硬件参数

	A100 40GB PCIe	A100 80GB PCIe	A100 40GB SXM	A100 80GB SXM
核心	GA100	GA100	GA100	GA100
架构	Ampere	Ampere	Ampere	Ampere
SM	108	108	108	108
CUDA Cores / SM	64	64	64	64
CUDA Cores / GPU	6912	6912	6912	6912
FP32 Cores / SM	64	64	64	64
FP32 Cores / GPU	6912	6912	6912	6912
FP64 Cores / SM	32	32	32	32
FP64 Cores / GPU	3456	3456	3456	3456
INT32 Cores / SM	64	64	64	64
INT32 Cores / GPU	6912	6912	6912	6912
Tensor Core	3rd	3rd	3rd	3rd
Tensor Cores / SM	4	4	4	4
Tensor Cores / GPU	432	432	432	432
GPU 加速频率 (MHz)	1410	1410	1410	1410
显存	40 GB HBM2	80 GB HBM2e	40 GB HBM2	80 GB HBM2e
显存位宽 (bit)	5120	5120	5120	5120
显存带宽 (GBps)	1555	1935	1555	2039
一缓 (KB per SM)	192	192	192	192
二缓 (MB)	40	40	40	40
接口	PCIe 4.0x16	PCIe 4.0x16	SXM4	SXM4
TDP (W)	250	300	400	400
制程	TSMC N7 (7nm)	TSMC N7 (7nm)	TSMC N7 (7nm)	TSMC N7 (7nm)

注意到，完整 GA100 核心有 8 组 GPC，每组 GPC 包含 8 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 GA100 核心共有 128 个 SM 单元，但 A100 的 GA100 核心只开启其中的 108 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计算单元。

每个 SM 单元中有 4 个 Tensor Core，因此 GA100 总共含有 432 个 Tensor Core。支持的数据类型有FP16、BF16、TF32、FP32、FP64、INT8、INT4、Binary。

二、算力

1、CUDA Core 算力

浮点：TFLOPS

整型：TIOPS