深度学习常用显卡比较

最新推荐文章于 2025-07-04 20:30:33 发布

原创最新推荐文章于 2025-07-04 20:30:33 发布 · 4.4w 阅读

108 ·

CC 4.0 BY-SA版权

文章标签：

#GPU #深度学习

深度学习专栏收录该内容

73 篇文章

订阅专栏

Titan RTX深度学习评测结果

NVIDIA TITAN RTX 专为数据科学、AI 研究、内容创作和通用 GPU 开发而构建。它基于 Turing 架构搭建，具有 4608 个 CUDA 核心、576 个用于加速 AI 的全速混合精度 Tensor Core 核心和 72 个用于加速光线追踪的 RT 核心。TITAN RTX 还包含 24 GB GPU 显存，支持使用大批量样本训练神经网络、处理大型数据集，并适用于大型动画模型和其他占用大量内存的工作流程。

AI硬件供应商Lambda Labs对Titan RTX、RTX 2080Ti、Tesla V100（32GB）、GTX 1080Ti、Titan Xp、Titan V只对单GPU在各种深度学习训练任务上的训练速度进行测试结果。

在 FP 32 单精度训练上，Titan RTX 平均：

比 RTX 2080Ti 快 8%；
比 GTX 1080Ti 快 46.8%；
比 Titan Xp 快 31.4%；
比 Titan V 快 4%；
比 Tesla V100（32 GB）慢 13.7%。

在 FP 16 半精度训练上，Titan RTX 平均：
比 RTX 2080 Ti 快 21.4%；
比 GTX 1080 Ti 快 209.7%；
比 Titan Xp 快 192.1%；
比 Titan V 慢 1.6%；t
和 v100（32 GB）的对比还有待调整。

batch-size：

FP32 - 每秒钟处理的图像数量：

FP16 - 每秒钟处理的图像数量：

NVIDIA英伟达GPU显卡算力

GPU显卡分类：

Tesla：用于技术和科学计算
Quadro：用于专业可视化
Jetson：用于AI自主机器
GeForce和TITAN：

在这里插入图片描述
官方说明在GPU算力高于5.0时，可以用来跑神经网络。显存越高，意味着性能越强大，因为显存越大，batch size就越大，CUDA核可以更加接近满负荷工作。

常见显卡的计算力：
在这里插入图片描述

在这里插入图片描述

深度学习GPU选择

GPU几个比较重要的参数：

GPU架构：
不同款的GPU可能采用不同设计架构，比如GeForce 10系列的GTX 1080/1080Ti采用的是Pascal架构，而GeForce 20系列的RTX 2080/2080Ti采用的是Turing架构。不同架构的GPU，即使其他参数差不多，性能差别可能非常大。
CUDA核心数量
CUDA核心数量越大越好，Geforce GTX 1080的CUDA核心数量是2560个。而Geforce RTX 2080Ti的CUDA核心数高达4352个。
显存位宽
代表GPU芯片每个时钟周期内能从GPU显存中读取的数据大小，这个值越大代表GPU芯片和显存之间数据交换的速度越快，性能越好。Geforce GTX 1080的显存位宽为256bit，Geforce RTX 2080Ti显存位宽为352bit。
GPU工作频率
代表GPU每秒钟工作次数，单位为MHz，跟CPU的频率类似。该值越大代表性能越好。
显存带宽
代表GPU芯片每秒与显存交换的数据大小，这个值等于显存位宽*工作频率，单位为GB/秒，该值越大，代表GPU性能越好。Geforce GTX 1080的显存带宽为320GB/秒，而它的升级版Geforce RTX 2080的带宽为448GB/秒。
显存容量
显存越高，意味着性能越强大，因为显存越大，batch size就越大，CUDA核可以更加接近满负荷工作。Geforce GTX 1080的显存为8GB，而该系列的旗舰版Geforce GTX 1080Ti的显存为11GB。Tesla系列显卡由于特殊的应用场景，有些型号的卡显存高达16G/24G不等。
功耗
GPU能耗，像Geforce这种消费级的显卡一般功耗非常高，Geforce GTX 1080的最大功耗为175W，Tesla P4的最大功耗为75W。像那种数据中心大规模级别的GPU部署，低功耗的显卡一年电费能省很多。

在这里插入图片描述