【GPU并行计算】不同设备上的GPU性能分析

NVIDIA Gefore RTX 4080

CUDA Capability Major/Minor version number: 8.9​
设备的计算能力版本为8.9,表示支持的功能集和架构特性

​Total amount of global memory: 16057 MBytes (16836919296 bytes)​
显卡的全局内存总量为16GB

MapSMtoCores for SM 8.9 is undefined. Default to use 128 Cores/SM​
计算能力8.9的SM(流式多处理器)核心数未定义,默认每个SM有128个CUDA核心

(076) Multiprocessors, (128) CUDA Cores/MP: 9728 CUDA Cores​

  • 76个多处理器(SM)
  • 每个SM有128个CUDA核心
  • 总计:76 × 128 = 9728个CUDA核心

Warp size: 32​

线程束(Warp)大小为32,即每个Warp包含32个线程

Maximum number of threads per multiprocessor: 1536​

每个SM最多支持1536个线程(即,48个线程束)

Maximum number of threads per block: 1024​
每个线程块最多支持1024个线程

NVIDIA A100 

CUDA Capability Major/Minor version number: 8.0
设备的计算能力版本为8.0,表示支持的功能集和架构特性

​Total amount of global memory: 81053 MBytes (84990623744 bytes)​
显卡的全局内存总量为80GB

(108) Multiprocessors, (64) CUDA Cores/MP: 6912 CUDA Cores​

  • 108个多处理器(SM)
  • 每个SM有64个CUDA核心
  • 总计:108 × 64 = 6912个CUDA核心

Warp size: 32​

线程束(Warp)大小为32,即每个Warp包含32个线程

Maximum number of threads per multiprocessor: 2048​

每个SM最多支持2048个线程(即,64个线程束)

Maximum number of threads per block: 1024​
每个线程块最多支持1024个线程

Tesla T4 

CUDA Capability Major/Minor version number: 7.5
设备的计算能力版本为7.5,表示支持的功能集和架构特性

​Total amount of global memory: 14931 MBytes (15655829504 bytes)​
显卡的全局内存总量为14.9GB

(40) Multiprocessors, (64) CUDA Cores/MP: 2560 CUDA Cores​

  • 40个多处理器(SM)
  • 每个SM有64个CUDA核心
  • 总计:40 × 64 = 2560个CUDA核心

Warp size: 32​

线程束(Warp)大小为32,即每个Warp包含32个线程

Maximum number of threads per multiprocessor: 1024​

每个SM最多支持1024个线程(即,32个线程束)

Maximum number of threads per block: 1024​
每个线程块最多支持1024个线程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值