显卡算力排行榜

wave789

已于 2023-10-12 15:54:44 修改

阅读量2.1w

点赞数 7

分类专栏：深度学习文章标签：人工智能

于 2023-10-12 12:56:46 首次发布

本文链接：https://blog.csdn.net/wave789/article/details/133775280

版权

深度学习专栏收录该内容

2 篇文章

订阅专栏

一、概念：

OPS：每秒所执行的运算次数（Operations Per Second）
FLOPS：每秒所执行的浮点运算次数（Floating-point Operations Per Second）
OPs：运算次数（Operations缩写OPs）。要特别注意区分，小写s表示复数。
FLOPs：浮点运算次数（Floating-point Operations）
M = mega：一百万（=10^6）
G = giga ：十亿（=10^9）
T = tera ：一万亿（=10^12）（在我国，1兆等于1万亿）
P = peta ：一千万亿（=10^15）
E = exa ：一百亿亿（=10^18）

组合：

MOPS：mega FLOPS
GOPS：giga OPS
TOPS：tera OPS
POPS：peta OPS
EOPS：exa OPS

MFLOPS：mega FLOPS
GFLOPS： giga FLOPS
TFLOPS： tera FLOPS （每秒一万亿（=10^12）次的浮点运算）
PFLOPS： peta FLOPS
EFLOPS： exa FLOPS

MFLOPs：mega FLOPs
GFLOPs： giga FLOPs（十亿（=10^9）个浮点运算）
TFLOPs： tera FLOPs
PFLOPs： peta FLOPs
EFLOPs： exa FLOPs

一些显卡算力的排行榜，仅供参考：

NVIDIA H100
CUDA核心数量：
内存容量：
内存总线宽度：
计算性能（浮点运算性能）：
NVIDIA A100
CUDA核心数量：6912
内存容量：通常为40GB HBM2（也有80GB版本可供选择）
内存总线宽度：512位
计算性能（浮点运算性能）：9.7 TFLOPS（FP64）、19.5 TFLOPS（FP32）、156 TFLOPS（Tensor Float32）、312 TFLOPS（Tensor Float16）、624 TOPS（Tensor INT8）
NVIDIA GeForce RTX 4090
CUDA核心数量：16384
内存容量：24GB GDDR6X
内存总线宽度：384位
计算性能（浮点运算性能）：
NVIDIA GeForce RTX 3090
CUDA核心数量：10496
内存容量：24GB GDDR6X
内存总线宽度：384位
计算性能（浮点运算性能）：约35.7 TFLOPS（FP32）
NVIDIA GeForce RTX 3080
CUDA核心数量：8704
内存容量：10GB GDDR6X
内存总线宽度：320位
计算性能（浮点运算性能）：约29.8 TFLOPS（FP32）
NVIDIA GeForce RTX 3060
CUDA核心数量：3584
内存容量：12GB GDDR6
内存总线宽度：192位
计算性能（浮点运算性能）：约12.7 TFLOPS（FP32）
NVIDIA GeForce RTX 2080 Ti
CUDA核心数量：4352
内存容量：11GB GDDR6
内存总线宽度：352位
计算性能（浮点运算性能）：约13.4 TFLOPS（FP32）
NVIDIA GeForce GTX 1080
CUDA核心数量：2560
内存容量：8GB GDDR5X
内存总线宽度：256位
计算性能（浮点运算性能）：约8.9 TFLOPS（FP32）
NVIDIA GeForce GTX 950
CUDA核心数量：768
内存容量：通常是2GB GDDR5（也有4GB版本）
内存总线宽度：128位
计算性能（浮点运算性能）：约1.6 TFLOPS（FP32）
NVIDIA Tesla P4
CUDA核心数量：2560
内存容量：8GB GDDR5
内存总线宽度：256位
计算性能（浮点运算性能）：约5.5 TFLOPS（FP32）

参考：https://images.nvidia.cn/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf
参考：https://blog.csdn.net/anlongstar/article/details/128004074