GPU（图形处理单元）工作原理与CUDA工作原理

一个C++的萌新

已于 2024-09-25 21:15:07 修改

阅读量658

点赞数 13

分类专栏：计算机新增内容文章标签：后端 GPU cuda

于 2024-09-25 21:14:46 首次发布

本文链接：https://blog.csdn.net/austinchr3377/article/details/142533314

版权

GPU最初是为了加速3D图形渲染而设计的，它能够快速执行大量并行计算任务，如顶点变换、光照效果和纹理贴图。这些操作对于实现实时图形渲染至关重要。随着技术的进步，GPU的设计逐渐变得更加通用化，开始支持更多类型的并行计算任务，包括视频解码、物理模拟、科学计算等。

在20世纪90年代末至21世纪初，NVIDIA和ATI（后来被AMD收购）两家公司推动了GPU的发展。NVIDIA于1999年推出了GeForce 256，这是第一款被称为GPU的产品。随后几年里，GPU经历了从固定功能管线到可编程着色器的转变，这一变化极大地增强了GPU的灵活性和性能。

关键里程碑:

固定功能管线 (Fixed Function Pipeline): 在早期的GPU中，图形处理流程是固定的，开发者无法更改或定制这些步骤。每个阶段都有特定的功能，比如几何处理、光栅化、纹理映射等。这种管线虽然高效，但缺乏灵活性。
可编程着色器 (Programmable Shaders): 引入可编程着色器后，开发者可以编写自定义代码来控制顶点和像素的处理方式。这为更复杂的图形效果打开了大门，使得开发者可以实现诸如动态阴影、反射、折射等高级视觉效果。
通用计算 (General-Purpose Computing on GPUs, GPGPU): 随着CUDA和其他GPGPU框架的出现，GPU开始用于非图形领域的计算任务。这意味着GPU不再仅仅是一个图形处理器，而是成为一个强大的并行计算引擎，适用于各种高性能计算场景。

现代GPU架构设计旨在最大化并行处理能力，同时提供高效的数据访问机制。其核心组成部分包括：

流式多处理器 (Streaming Multiprocessors, SMs):
- 每个SM通常包含几十到上百个CUDA核心，这些核心可以独立地执行线程。CUDA核心类似于CPU中的核心，但它们专门设计用于大规模并行计算。
- SM内部还包括控制逻辑、寄存器文件、共享内存以及缓存等组件。控制逻辑负责调度指令和管理线程；寄存器文件存储每个线程的局部数据；共享内存允许同一个线程块内的线程进行高速通信；缓存则帮助减少对慢速全局内存的访问。
- 在同一时间，一个SM可以处理多个线程块，并且可以在不同的线程之间进行上下文切换。这意味着即使某个线程因为等待数据而暂停，其他线程也可以继续执行，从而提高了硬件利用率。
内存层次结构:
- 寄存器文件: 寄存器是每个线程私有的，用于存储局部变量和其他临时数据。由于它们位于SM内部，所以访问速度非常快。寄存器的数量有限，因此需要谨慎使用。
- 共享内存/缓存: 共享内存是一种片上内存，位于每个SM内部，允许同一个线程块内的所有线程快速交换数据。共享内存的容量有限，但比全局内存快得多。合理