CUDA Architechure Basics(CUDA 架构基础)

最新推荐文章于 2023-10-24 15:22:35 发布

JUAN425

最新推荐文章于 2023-10-24 15:22:35 发布

阅读量1.2k

点赞数

分类专栏： DeepLearning C++ 综合

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a130737/article/details/42845533

版权

1. GPU 的相关的概念，以及相关的GPU硬件架构

GPU 主要有两个主要的components, 一个是全局内存（global memory），一个是streaming multiprocessors(SMs，翻译为流多处理器)

1.1 global memory

（1）可以类比这个内存为CPU的RAM

（2） CPU 和GPU 均可以访问到

（3）目前最大达到24GB, 为去年（2014）11月NVIDIA 推出的K80（双GPU）, K80 指标如下(为了显示K80 的牛逼之处，特与上个版本K40列出进行对比)：

（4）内存的带宽最大达到了480GB/sec

1.2 SMs（流多处理器）

SMs 是GPU的基本组成部分。是真正执行并行运算的部分。 SMs 运行着我们的 CUDA kernels。每一个SM 包含着属于这个SM自身的几千个寄存器（register），自己的控制单元，自己的高速缓存（Cache）， warp schedulers, 以及用于整数和浮点数运算操作的execution cores（执行核）。

（1） registers(寄存器)

每一个SM都有几千个寄存器。这些寄存器在线程被执行的时候，分配给不同的线程（threads）。之所以具有这么多的寄存器是为了提高硬件的吞吐量（throughput），因为使用寄存器可以减少数据的或者指令传输的延迟。

（2）高速缓存（cache）有以下几种。

O 共享内存（shared memory），用于当数据在需要不同线程之间进行交换。、

O constant cache, 用于快速的broadcast 从constant memory 读取到的内容。

O texture cache, 用于将texture memory 的bandwidth aggregate 起来。

O L1 cache ，用于减少数据到local 或者global memeory 的延迟（latency）。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CUDA Architechure Basics(CUDA 架构基础)

1. GPU 的相关的概念，以及相关的GPU硬件架构 GPU 主要有两个主要的components, 一个是全局内存（global memory），一个是streaming multiprocessors(SMs，翻译为流多处理器) 1.1 global memory （1）可以类比这个内存为CPU的RAM
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。