cuda GPU 编程之共享内存的使用

最新推荐文章于 2024-07-27 12:20:46 发布

diansai3900

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量3k

点赞数

文章标签： python 人工智能

原文链接：http://www.cnblogs.com/cofludy/p/7622254.html

版权

　　原理上来说，共享内存是GPU上可受用户控制的一级缓存。在一个SM中，存在着若干cuda core + DP(双精度计算单元) + SFU（特殊函数计算单元）+共享内存+常量内存+纹理内存。相对于全局内存，共享内存的方寸延迟较低，可以达到惊人的1.5TB/s。而全局内存大约只有150GB/s。（最新的NVLINK技术没有考虑在内）。因而共享内存的使用时性能提高的一个重要的因素。但是注意到，将数据拷贝到共享内存中也消耗了部分时间。因而，共享内存仅仅适合存在着数据的重复利用，全局的内存合并或者是线程之间有共享数据的时候，否则直接使用全局内存会更好一些。

下面介绍两种使用共享内存的方法。

　1. 创建固定大小的共享内存。(在kernel函数内存定义)

__shared__ float a_in[34];

　　注意这里的34必须在编译之前指定大小。可以使用宏定义的方式进行。下面的方式是一种错误的示范。

__shared__ float s_in[blockDim.x+2*RAD];

　　

2. 动态申请共享内存数组，声明时需要加上 extern 前缀。

extern __shared__ float a[];
<

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
cuda GPU 编程之共享内存的使用

　　原理上来说，共享内存是GPU上可受用户控制的一级缓存。在一个SM中，存在着若干cuda core + DP(双精度计算单元) + SFU（特殊函数计算单元）+共享内存+常量内存+纹理内存。相对于全局内存，共享内存的方寸延迟较低，可以达到惊人的1.5TB/s。而全局内存大约只有150GB/s。（最新的NVLINK技术没有考虑在内）。因而共享内存的使用时性能提高的一个重要的因素。但是注意...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。