cuda中线程块共享存储（shared memory）加速较全局存储（global memory）之优势

最新推荐文章于 2024-05-13 07:30:40 发布

我来自江南

最新推荐文章于 2024-05-13 07:30:40 发布

阅读量5k

点赞数 1

分类专栏： GPU编程文章标签：存储 cuda c 任务

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/abcdef8c/article/details/7251702

版权

（仅供参考，各方面表述可能有错，概不负责）

首先个人观点说明两个概念，（1）共享存储加速，就是一个线程块内不仅所有线程并发执行，而且各线程还通过共享的内存来实现协作，进一步提升加速效果；（2）全局存储加速，仅仅是前者的前一个加速功能，即所有线程并发执行，线程之间不存在相互协作关系。

考虑两个等大小正方矩阵A（m x m）与B（m x m）相乘，结果存储在C（m x m）中。

1.全局存储

假如m的大小刚好不超过你的计算机的GPU的线程块维度大小的最大值（本人的GPU是512），那么就可以用一个线程块中的m x m个线程并发执行，每个线程（row，col）计算矩阵C中的一个数据C（row，col）。

基于以上假设，因为每个线程是各自独立并发运行计算的，所以整个矩阵的计算效率等价于一个线程的计算效率，也就是只需考虑分析一个线程完成它自己计算任务的速度。一个线程的计算过程如下（图示）:

C(row,col)=A（row , 0:m-1）x B（0:m-1 , col）'

其中线程在矩阵A的

最低0.47元/天解锁文章

我来自江南

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
cuda中线程块共享存储（shared memory）加速较全局存储（global memory）之优势

（仅供参考，各方面表述可能有错，概不负责）首先个人观点说明两个概念，（1）共享存储加速，就是一个线程块内不仅所有线程并发执行，而且各线程还通过共享的内存来实现协作，进一步提升加速效果；（2）全局存储加速，仅仅是前者的前一个加速功能，即所有线程并发执行，线程之间不存在相互协作关系。考虑两个等大小正方矩阵A（m x m）与B（m x m）相乘，结果存储在
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。