一、概念:
- OPS:每秒所执行的运算次数(Operations Per Second)
- FLOPS:每秒所执行的浮点运算次数(Floating-point Operations Per Second)
- OPs:运算次数(Operations缩写OPs)。要特别注意区分,小写s表示复数。
- FLOPs:浮点运算次数(Floating-point Operations)
- M = mega: 一百万(=10^6)
G = giga : 十亿 (=10^9)
T = tera : 一万亿 (=10^12)(在我国,1兆等于1万亿)
P = peta :一千万亿 (=10^15)
E = exa :一百亿亿 (=10^18)
组合:
MOPS:mega FLOPS
GOPS:giga OPS
TOPS:tera OPS
POPS:peta OPS
EOPS:exa OPS
MFLOPS:mega FLOPS
GFLOPS: giga FLOPS
TFLOPS: tera FLOPS (每秒一万亿(=10^12)次的浮点运算)
PFLOPS: peta FLOPS
EFLOPS: exa FLOPS
MFLOPs:mega FLOPs
GFLOPs: giga FLOPs(十亿(=10^9)个浮点运算)
TFLOPs: tera FLOPs
PFLOPs: peta FLOPs
EFLOPs: exa FLOPs
一些显卡算力的排行榜,仅供参考:
-
NVIDIA H100
CUDA核心数量:
内存容量:
内存总线宽度:
计算性能(浮点运算性能): -
NVIDIA A100
CUDA核心数量:6912
内存容量:通常为40GB HBM2(也有80GB版本可供选择)
内存总线宽度:512位
计算性能(浮点运算性能):9.7 TFLOPS(FP64)、19.5 TFLOPS(FP32)、156 TFLOPS(Tensor Float32)、312 TFLOPS(Tensor Float16)、624 TOPS(Tensor INT8) -
NVIDIA GeForce RTX 4090
CUDA核心数量:16384
内存容量:24GB GDDR6X
内存总线宽度:384位
计算性能(浮点运算性能): -
NVIDIA GeForce RTX 3090
CUDA核心数量:10496
内存容量:24GB GDDR6X
内存总线宽度:384位
计算性能(浮点运算性能):约35.7 TFLOPS(FP32) -
NVIDIA GeForce RTX 3080
CUDA核心数量:8704
内存容量:10GB GDDR6X
内存总线宽度:320位
计算性能(浮点运算性能):约29.8 TFLOPS(FP32) -
NVIDIA GeForce RTX 3060
CUDA核心数量:3584
内存容量:12GB GDDR6
内存总线宽度:192位
计算性能(浮点运算性能):约12.7 TFLOPS(FP32) -
NVIDIA GeForce RTX 2080 Ti
CUDA核心数量:4352
内存容量:11GB GDDR6
内存总线宽度:352位
计算性能(浮点运算性能):约13.4 TFLOPS(FP32) -
NVIDIA GeForce GTX 1080
CUDA核心数量:2560
内存容量:8GB GDDR5X
内存总线宽度:256位
计算性能(浮点运算性能):约8.9 TFLOPS(FP32) -
NVIDIA GeForce GTX 950
CUDA核心数量:768
内存容量:通常是2GB GDDR5(也有4GB版本)
内存总线宽度:128位
计算性能(浮点运算性能):约1.6 TFLOPS(FP32) -
NVIDIA Tesla P4
CUDA核心数量:2560
内存容量:8GB GDDR5
内存总线宽度:256位
计算性能(浮点运算性能):约5.5 TFLOPS(FP32)
参考:https://images.nvidia.cn/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf
参考:https://blog.csdn.net/anlongstar/article/details/128004074