NVIDIA A100 深度解密（一）：GPU 峰值计算那些事

「已注销」

于 2020-09-17 14:54:31 发布

阅读量1.4k

点赞数 1

分类专栏：云计算文章标签：服务器

本文链接：https://blog.csdn.net/java06051515/article/details/108642909

版权

本文介绍了NVIDIA的A100 Tensor Core GPU，基于Ampere架构，拥有强大的计算能力。文章详细讨论了GPU的发展，特别是A100的SM架构，包括其Tensor Core对深度学习的加速作用，并探讨了不同数值精度下的峰值计算能力。

摘要由CSDN通过智能技术生成

1、背景介绍

2020 年 5 月 14日，NVIDIA 创始人兼首席执行官黄仁勋在自家厨房直播带货，哦不对应该是 NVIDIA GTC 2020 主题演讲中热情洋溢地介绍了新鲜出炉的基于最新 Ampere 架构的 NVIDIA A100 GPU，号称史上最豪华的烧烤。
在这里插入图片描述

NVIDIA A100 Tensor Core GPU 基于最新的 Ampere 架构，其核心为基于台积电 7nm 工艺制造的 GA100，内有 542 亿晶体管，裸片尺寸为 826mm^2，而前代 GV100 裸片尺寸 815mm^2，内有 211 亿晶体管，短短 3 年时间，得益于新工艺，芯片集成度翻了不止一倍！

从 NVIDIA 发布会内容以及白皮书中能看到一些令人震惊的数字，今天我们来解密这些数字是怎么计算得到的。为此我们需要深入 GPU 架构一探究竟。

2、Ampere GPU 架构介绍

图形处理器（GPU, Graphics Processing Unit），用来加速计算机图形实时绘制，俗称显卡，经常用于打游戏。自 NVIDIA 于 1999 年发明第一款 GPU GeForce 256，尔来二十有一年矣。
在这里插入图片描述

从图片看到 GeForce 256 衣着相当简朴，完全看不到 RTX 3090 的贵族气质，显示输出口仅支持 VGA，显存 32 MB，另外和主机的接口是早已不见踪影的 AGP，支持的图形 API 为 DirectX 7.0、OpenGL 1.2，目前主流游戏都跑不动，放到现在只能当摆设。

那时显卡还只是纯粹的显卡，硬件架构还是固定的渲染流水线，如下图所示。
在这里插入图片描述

渲染流水线中可被程序员控制的部分有两处：Geometry Processing 和 Pixel Processing，前者处理几何坐标变换，涉及矩阵乘计算；后者处理图像像素，涉及插值计算。有一些对科学有执着追求的人们试图用渲染流水线做一些除了打游戏之外更为正经的工作。于是，他们把计算输入数据伪造成顶点坐标或纹理素材，把计算机程序模拟为渲染过程，发挥异于常人的聪明才智，使用 OpenGL/DirectX/Cg 实现各类数值算法，将显卡这个为游戏做出突出贡献的可造之材打造为通用并行计算的利器，此时的 GPU 被赋能了更多工作内容，称作 GPGPU（General Purpose GPU）。

从事 GPGPU 编程的程序员十分苦逼，既要懂图形 API、GPU 架构，还要把各个领域算法摸清楚翻译为顶点坐标、纹理、渲染器这些底层实现，十分难以维护，今天一气呵成的代码，明天就形同陌路。程序如有 bug，调试工具奇缺，只能靠运气和瞪眼法。

为了彻底解放生产力，提高编程效率，NVIDIA 在 2006 年引入统一图形和计算架构以及 CUDA 工具，从此 GPU 就可以直接用高级语言编程，由程序员控制众多 CUDA 核心完成海量数值计算，GPGPU 业已成为历史。

GeForce 8800 是第一款支持 CUDA 计算的 GPU，核心为 G80，首次将渲染流水线中分离的顶点处理器与像素处理器替换为