NVIDIA 显卡中的 FP16 Tensor Core 和 FP16 算力有何区别？？

JiaWen技术圈

已于 2024-12-05 10:05:07 修改

阅读量3.4k

点赞数 4

分类专栏：人工智能文章标签：深度学习人工智能 pytorch gpu算力 AIGC

于 2024-12-05 10:04:04 首次发布

本文链接：https://blog.csdn.net/gumc123/article/details/144257118

版权

4 篇文章

订阅专栏

NVIDIA 显卡中的 FP16 Tensor Core 和 FP16 算力 是两个相关但有显著区别的概念。以下是它们的定义和区别：

定义：
Tensor Core 是 NVIDIA 针对深度学习工作负载设计的专用硬件单元，自 Volta 架构（如 V100）开始引入，专注于矩阵乘法加速。Tensor Core 支持多种精度计算模式，包括 FP16、FP8、INT8 等。
特点：
- 主要用途：用于深度学习中的大规模矩阵运算（如卷积和全连接层的加速）。
- 高吞吐量：Tensor Core 能在一个时钟周期内执行多个浮点计算，因此在执行矩阵乘法（如 A×B + C）时效率极高。
- 混合精度：支持 FP16 输入、FP32 累加（Mixed Precision Training），可以兼顾性能与精度。
性能：
Tensor Core 的性能通常以 TFLOPS（每秒万亿次浮点运算）来衡量，FP16 模式下 Tensor Core 的计算能力比普通 CUDA 核心高出数倍。

定义：
FP16 算力指显卡使用标准的 CUDA 核心以 FP16（半精度浮点数）进行运算时的能力。
特点：
- 通用性：FP16 算力并不局限于矩阵乘法，可以用于其他需要 FP16 精度的运算。
- 吞吐量较低：相比于 Tensor Core，CUDA 核心的 FP16 算力在并行效率上要低得多。
- 不支持混合精度累加：FP16 在普通 CUDA 核心上的计算完全遵循 FP16 标准，不能直接实现 FP32 累加。
性能：
由于 CUDA 核心并不是专门为矩阵运算设计的，它的 FP16 算力通常显著低于同架构下 Tensor Core 的 FP16 算力。

特性	FP16 Tensor Core	FP16 算力
硬件单元	Tensor Core	CUDA 核心
用途	矩阵乘法加速，特别是深度学习任务	通用计算
支持混合精度	是（FP16 输入，FP32 累加）	否
性能	远高于普通 CUDA 核心	显著低于 Tensor Core
主要应用场景	AI 加速（训练和推理）、科学计算	图形渲染、一般 FP16 计算
引入架构	Volta 架构及其后续架构（如 Ampere, Hopper）	Maxwell 架构起（FP16 支持的基本算力）