该资源由Microway根据NVIDIA和可信媒体来源提供的数据编写。 所有NVIDIA GPU都支持通用计算(GPGPU),但并非所有GPU都提供相同的性能或支持相同的功能。GeForce GPU的消费者产品线(特别是GTX Titan)可能对那些运行GPU加速应用程序的人很有吸引力。但是,记住产品之间的差异是明智的。专业的Tesla和Quadro GPU有许多功能。
FP64 64位(双精度)浮点计算
许多应用需要更高精度的数学计算。在这些应用程序中,数据由两倍大的值表示(使用64位二进制位而不是32位)。这些较大的值称为双精度(64位)。不太准确的值称为单精度(32位)。虽然几乎所有NVIDIA GPU产品都支持单精度和双精度计算,但在大多数消费级GeForce GPU上,双精度值的性能要低得多。以下是GeForce和Tesla / Quadro GPU之间双精度浮点计算性能的比较:
NVIDIA GPU模型 | 双精度(64位)浮点性能 |
---|---|
GeForce GTX Titan X Maxwell | 高达0.206 TFLOPS |
GeForce GTX 1080 Ti | 高达0.355 TFLOPS |
GeForce Titan Xp | 高达0.380 TFLOPS |
GeForce Titan V. | 高达6.875 TFLOPS |
GeForce RTX 2080 Ti | 估计~0.44 TFLOPS |
特斯拉K80 | 1.87+ TFLOPS |
特斯拉P100 * | 4.7~5.3 TFLOPS |
Quadro GP100 | 5.2 TFLOPS |
特斯拉V100 * | 7~7.8 TFLOPS |
Quadro GV100 | 7.4 TFLOPS |
Quadro RTX 6000和8000 | ~0.5 TFLOPS |
特斯拉T4 | 估计~0.25 TFLOPS |
*确切的值取决于PCI-Express或SXM2 SKU
FP16 16位(半精度)浮点计算
一些应用程序不需要高精度(例如,神经网络训练/推理和某些HPC使用)。在“Pascal”GPU中 引入了对半精度FP16操作的支持。这是以前深度学习/人工智能计算的标准; 但是,深度学习工作负载已转移到更复杂的操作(请参阅下面的TensorCores)。尽管所有NVIDIA“Pascal”和后来的GPU都支持FP16,但在许多以游戏为中心的GPU上,性能显着降低。以下是GeForce和Tesla / Quadro GPU之间半精度浮点计算性能的比较:
NVIDIA GPU模型 | 半精度(16位)浮点性能 |
---|---|
GeForce GTX Titan X Maxwell | N / A |
GeForce GTX 1080 Ti | 小于0.177 TFLOPS |
GeForce Titan Xp | 小于0.190 TFLOPS |
GeForce Titan V. | ~27.5 TFLOPS |
GeForce RTX 2080 Ti | 28.5 TFLOPS |
特斯拉K80 | N / A |
特斯拉P100 * | 18.7~21.2 TFLOPS * |
Quadro GP100 | 20.7 TFLOPS |
特斯拉V100 * | 28~31.4 TFLOPS * |
Quadro GV100 | 29.6 TFLOPS |
Quadro RTX 6000和8000 | 32.6 TFLOPS |
特斯拉T4 | 16.2 TFLOPS |
*确切的值取决于PCI-Express或SXM2 SKU
TensorFLOPS和深度学习表现
一个新的专业的Tensor Core单元与“Volta”GPU一起推出。它将两个FP16单元(转换为全精度产品)与FP32累加运算相结合 - 这是