CUDA 共享内存

最新推荐文章于 2024-08-07 15:54:55 发布

weiwei0319

最新推荐文章于 2024-08-07 15:54:55 发布

阅读量1.1k

点赞数 1

分类专栏： CUDA 文章标签： cuda

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weiwei0319/article/details/106587833

版权

CUDA中的共享内存提供了高效访问，但银行冲突会影响性能。文章解释了银行冲突的概念，展示了如何通过数据重新布局避免冲突。示例代码演示了矩阵转置中的优化策略，以减少bank冲突。

摘要由CSDN通过智能技术生成

GPU设备中的共享内存比全局内存访问效率高，一种借助共享内存的通用办法是，数据分块之后，将一个线程块中需要从全局内存中读取的数据全部读到共享内存中，然后线程块中的所有线程在执行时，只需要读取共享内存即可。

共享内存中所谓的共享是对线程块而言，也就是说同一个线程块中的所有线程共享这块内存。为了使得一个wrap中的线程可以在同一个时刻并行访问共享内存，共享存储器被组织成了32个bank，每个bank有4字节。

共享内存访问有bank 冲突问题，一个wrap中存在多个线程同时访问同一个bank的数据，则称为bank冲突，bank冲突非常影响性能，在冲突最严重的情况下，访问速度比全局内存还要慢。但是如果一个wrap中多有线程访问同一个bank数据，不会产生bank冲突，而是会产生一次广播，访问速度不会下降。在不发生bank冲突时，访问共享存储器的速度与寄存器相当。当然在不同块之间，共享存储器是毫不相关的。

假设定义以下数据：

__shared__ float data[128];

那么，data[0]对应bank0，data[1]对应bank1，data[2]对应bank2，........data[31]对应bank31，而data[32]又回到bank0，data[33]回到bank1.

因此，如果程序以如下方式访问：

foat f = data[base+tid]；则不会产生bank 冲突，因为各自线程访问不同的bank。

但是如果以下方式访问:

float f = data[base + 4*tid]；thread0和thread8 就会访问bank0，thre

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。