GPU并行运算与CUDA编程--硬件篇

最新推荐文章于 2023-11-24 00:36:22 发布

GLinttsd

最新推荐文章于 2023-11-24 00:36:22 发布

阅读量446

点赞数

分类专栏：基于CUDA的GPU并行编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GLinttsd/article/details/109412010

版权

基于CUDA的GPU并行编程专栏收录该内容

7 篇文章 6 订阅

订阅专栏

GPU并行运算与CUDA编程--硬件篇

GPU硬件架构

GPU硬件架构

如图所示
在这里插入图片描述
总体来讲，数据从CPU内存传输到GPU内存是这样的过程：
CPU内存（DDRx）—>CPU L3缓存 —>CPU I/O控制器 —>PCIe总线 —>GPU I/O控制器 —> L2缓存 —> GPU内存（GDDRx）

1.PCIe总线

CPU与GPU进行数据传输时（比如使用函数cudaMemcpy），两者的数据通过PCIe总线进行传输。

PCIe总线的数据吞吐量很大程度上影响了GPU的运算速度。目前最高版本为PCIe 4.0，版本越高吞吐速度越快。

2.主机端接口

主要用于与PCIe总线进行数据和代码的交换。

3.千兆线程调度器

顾名思义，其主要用于线程资源的调度，不过它只会分配给SM block资源（block ID）而不会关心thread ID。

4.末级高速缓存

CPU端L3缓存与GPU端L2缓存被称作末级高速缓存（LLC），它们直接与PCIe总线相连，其传输速度很高。

5.流处理器SM

一个SM内有两个block
SM中可以同时运行多条指令流水线，SM中不同warp在流水线中交替运行，以达到隐藏延时的作用。

在这里插入图片描述
每个SM有属于自己的L1$缓存，可以并行地为计算核心提供数据，这个数据在SM内部是通用的，在其他SM不可用。

SM内部还有执行单元和控制单元，前者用于计算，后者用于控制。

6.内存控制器

负责将全局存储器的数据送到L2$缓存中。

7.warp

1 SM = 2 block = 64 warp = 2048 thread
warp是GPU执行的基本单位，block是GPU启动的基本单位。
一个warp里面的32个线程只能执行同样的指令。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GPU并行运算与CUDA编程--硬件篇

GPU并行运算与CUDA编程--硬件篇1.PCIe总线2.warp1.PCIe总线CPU与GPU进行数据传输时（比如使用函数cudaMemcpy），两者的数据通过PCIe总线进行传输。具体而言，数据从CPU内存传输到GPU内存是这样的过程：CPU内存（DDRx）—>CPU L3缓存 —>CPU I/O控制器 —>PCIe总线 —>GPU I/O控制器 —> L2缓存 —> GPU内存（GDDRx）其中，CPU端L2缓存与GPU端L2缓存被称作末级高速缓存（LLC
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。