关于OpenCL在AMD GCN架构上的映射的一点理解

最新推荐文章于 2024-07-05 15:01:34 发布

魔流剑·风之痕

最新推荐文章于 2024-07-05 15:01:34 发布

阅读量3k

点赞数 3

分类专栏： OpenCL 文章标签： OpenCL AMD GPU GCN

本文链接：https://blog.csdn.net/baifengh/article/details/83756854

版权

本文介绍了OpenCL在AMD GCN架构上的映射，详细讲解了GCN架构的CU单元结构，包括SIMD单元和wavefront的概念。内容涵盖了指令执行流程、LDS（局部存储器）的特性以及如何避免存储体冲突。此外，还讨论了全局内存的访问模式，强调了避免通道冲突和存储体冲突的重要性，以实现高效的GPU计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

由于所学专业的原因，最近一直在研究OpenCL。作初学者，发现网上的一些资料不够系统，看过一些入门教程之后总有一种好像懂了，但解决实际问题时却发现无法摆脱例程的思维，很多细节分不清。所以，我特地就自己查找的资料，总结了一些东西，希望对入门者有所帮助，不要像我当初一样到处去网上找资料，看的一头雾水。第一次写东西分享，写的有点仓促，不足之处在所难免，还望指正。

1. GCN架构

言归正传，我们知道用OpenCL的人大多数都是用的AMD的GPU。这里就以我自己所用的AMD FirePro W7100为例来说明。该显卡为GCN3rd架构，设备代号Tonga，内存类型为GDDR5，总线宽度256位，显存8192MB，带宽160GB/S。这些参数可以通过GPU-Z获得。GCN架构每个CU单元结构如下：

图1 GCN的CU结构

GCN CU包含四个SIMD，每个SIMD都有一个32位VGPR（矢量通用寄存器）的64 KB寄存器文件，每个CU共有65,536个VGPR。每个CU还有一个32位SGPR（标量通用寄存器）的寄存器文件。在GCN3之前，每个SIMD包含512个SGPR，并且从GCN3开始这个数字达到800。这样每个CU产生3200个SGPRs，或12.5 KB。从图中可以看出SGPR是4个SIMD共享的，每个SIMD都有自己的64KB VGPR。

从图2中可以看到，在GCN架构中，每个CU含有一个标量单元用于做分支、同步操作；4个独立的向量单元（SMD0、SIMDI、SIMD2、SIMD3）用于做主要的向量算术逻辑计算处理。这4个SMD单元的每一个可以同时对16个工作项执行一单次操作（每个SIMD有16个ALU，每个CU有64个ALU）。而每个SMD单元每一次只能在它自己的 wavefront上执行。在GCN架构中，其 wavefront与 Cayman架构类似，对应64个工作项。执行完整条 wavefront需要花费4个周期，每个周期执行其中连续的16个工作项。

我们看看一个CU的执行前端。在GCN架构中，每个SMD具有其自己独立的40位程序计数器（Program Counters，PC），10条 wavefront以及用于执行这些 wavefront的指令缓存。因此，整个CU就含有40个 wavefront。每条 wavefront可以在不同的工作组或是不同的 kemel中执行。（每个SIMD可准备的wave上限为10个，实际中可能比10小，这与程序对寄存器，LDS等资源的占用有关）。