NVIDIA Tesla/Quadro和GeForce GPU的比较

最新推荐文章于 2024-07-18 17:29:51 发布

weixin_34191845

最新推荐文章于 2024-07-18 17:29:51 发布

阅读量3.2k

点赞数

文章标签： c/c++ 操作系统 python

原文链接：http://blog.51cto.com/1960961732/2368053

版权

本文比较了NVIDIA GeForce、Tesla和Quadro GPU在FP64、FP16计算能力、TensorFLOPS、错误检测与纠正、GPU加速等方面的表现。专业GPU如Tesla和Quadro在双精度计算、ECC支持、应用软件和操作系统支持等方面优于GeForce，适合于高精度计算和专业应用。而GeForce在游戏和部分GPU加速应用中表现出色，但不适用于服务器环境和专业软件。

摘要由CSDN通过智能技术生成

该资源由Microway根据NVIDIA和可信媒体来源提供的数据编写。所有NVIDIA GPU都支持通用计算（GPGPU），但并非所有GPU都提供相同的性能或支持相同的功能。GeForce GPU的消费者产品线（特别是GTX Titan）可能对那些运行GPU加速应用程序的人很有吸引力。但是，记住产品之间的差异是明智的。专业的Tesla和Quadro GPU有许多功能。

FP64 64位（双精度）浮点计算

许多应用需要更高精度的数学计算。在这些应用程序中，数据由两倍大的值表示（使用64位二进制位而不是32位）。这些较大的值称为双精度（64位）。不太准确的值称为单精度（32位）。虽然几乎所有NVIDIA GPU产品都支持单精度和双精度计算，但在大多数消费级GeForce GPU上，双精度值的性能要低得多。以下是GeForce和Tesla / Quadro GPU之间双精度浮点计算性能的比较：

NVIDIA GPU模型	双精度（64位）浮点性能
GeForce GTX Titan X Maxwell	高达0.206 TFLOPS
GeForce GTX 1080 Ti	高达0.355 TFLOPS
GeForce Titan Xp	高达0.380 TFLOPS
GeForce Titan V.	高达6.875 TFLOPS
GeForce RTX 2080 Ti	估计~0.44 TFLOPS
特斯拉K80	1.87+ TFLOPS
特斯拉P100 *	4.7~5.3 TFLOPS
Quadro GP100	5.2 TFLOPS
特斯拉V100 *	7~7.8 TFLOPS
Quadro GV100	7.4 TFLOPS
Quadro RTX 6000和8000	~0.5 TFLOPS
特斯拉T4	估计~0.25 TFLOPS

*确切的值取决于PCI-Express或SXM2 SKU

FP16 16位（半精度）浮点计算

一些应用程序不需要高精度（例如，神经网络训练/推理和某些HPC使用）。在“Pascal”GPU中引入了对半精度FP16操作的支持。这是以前深度学习/人工智能计算的标准; 但是，深度学习工作负载已转移到更复杂的操作（请参阅下面的TensorCores）。尽管所有NVIDIA“Pascal”和后来的GPU都支持FP16，但在许多以游戏为中心的GPU上，性能显着降低。以下是GeForce和Tesla / Quadro GPU之间半精度浮点计算性能的比较：

NVIDIA GPU模型	半精度（16位）浮点性能
GeForce GTX Titan X Maxwell	N / A
GeForce GTX 1080 Ti	小于0.177 TFLOPS
GeForce Titan Xp	小于0.190 TFLOPS
GeForce Titan V.	~27.5 TFLOPS
GeForce RTX 2080 Ti	28.5 TFLOPS
特斯拉K80	N / A
特斯拉P100 *	18.7~21.2 TFLOPS *
Quadro GP100	20.7 TFLOPS
特斯拉V100 *	28~31.4 TFLOPS *
Quadro GV100	29.6 TFLOPS
Quadro RTX 6000和8000	32.6 TFLOPS
特斯拉T4	16.2 TFLOPS