GPU 工作原理

最新推荐文章于 2024-06-16 16:17:17 发布

误伤这又何妨

最新推荐文章于 2024-06-16 16:17:17 发布

阅读量452

点赞数 9

文章标签： java 开发语言

本文链接：https://blog.csdn.net/m0_61552056/article/details/134064549

版权

前言

随着 LLM 的不断发展，算力成为一个非常热门的话题，尤其在前段时间4090禁止出售给中国的时候。说到算力，不免要讨论一下 GPU 。虽然大家都用着 GPU ，但真正了解 GPU 工作原理的人并不多。本篇文章将会从 GPU 底层架构出发告诉你 GPU 是如何进行并行计算的。

GPU VS CPU

GPU (Graphics Processing Units) 原本是用来处理图像数据的，在日常生活中，一个常见的例子就是游戏。
在这里插入图片描述
游戏画面并不是预存到电脑上的，而是通过位置、光照、时间等进行实时渲染。做个简单计算，假如你的显示器屏幕是1920*1080 且帧率为 60 帧，那 CPU 在一秒内需要至少需要进行 1.6亿次运算，对于一个普通 8 核 CPU 来说，势必会超时。

在这里插入图片描述
GPU 与 CPU 不同，GPU 主要优化吞吐量，比起单任务执行快慢，更关心并行度（同时执行多少任务）。这就使得在对大规模重复复杂问题计算时，GPU 会比 CPU 快上不少。

GPU 缓存机制

在这里插入图片描述

对于 GPU 来说，我们希望尽可能地减少内存的时延，内存的搬运这些问题，因此就有了 GPU 缓存机制。

在这里插入图片描述
在 NVIDIA A100 中，HBM Memory(80GB) 就是我们通常说的显存，在这里我们把一些寄存器文件（Register File）也当作缓存。实际执行单元（SM）希望能够快速获取数据，于是实际执行单元会从寄存器中读取 L2 Cache 的内容。另外一方面呢，希望 L2 Cache 与显存更近，当 L2 Cache 未命中时，GPU 会从显存中寻找数据。如果在显存还没有找到，就需要通过 PCIe 总线在内存中寻找，但由于 PCIe 的内存带宽非常低（比显存带宽低20倍），因此这会导致时延的大大增加。

GPU 采用 3 级缓存的形式，降低了由于内存传输导致的时延，GPU的算力利用率更高，也使得 GPU 总体计算时间更快。

GPU线程原理

在这里插入图片描述

为了提高 GPU 的算力利用率，GPU 内部会有上万个线程，每个线程执行一个对应的数据，上万个线程同时工作，就会使 GPU 处于忙碌状态并且 GPU 利用率也会提高。

现在我们打开其中的一个执行单元（SM）。SM 内部分成三个大部分：

warp：执行线程的一组，一个 warp 包含32个线程。当一个 kernel 启动时，GPU会将线程按照32个一组分割成多个warp。每个warp内的所有线程在同一个SM上被执行，且共享同一个指令计数器，这样可以有效地隐藏指令延迟。（可以看作一个Kernel）
Schelduler：调度程序。对于一个 SM 来说，可以同时运行 4 个 warps 进行协同工作。
L1 Cache：数据部分，存储进行运算的数据。

对于 A100 来说，GPU 内部有 22 万多个线程，其实线程是超配的，那为何这么做呢？一切都是为了提高 GPU 的利用率，同时也可以更好地应对计算复杂度的变化。