cuda coalesced access to global memory

最新推荐文章于 2023-10-23 14:45:06 发布

gonaYet

最新推荐文章于 2023-10-23 14:45:06 发布

阅读量565

点赞数

分类专栏：并行计算_cuda

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16097611/article/details/52514300

版权

并行计算_cuda 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

device : titan x

compute capblity: 5.2

一个wrap内的内存访问是被合并进行内存访问了：

而global memory的内存访问在compute capblity 5.2默认是先经过缓存L2 cache 然后当L2 cache不存在的时候才会进行全局访问，然后数据存放在l2 cache,然后将结果访问kernel

L2 cache:

以32bytes为单位进行tansactions传输

已分配好的数据便是按照32bytes进行编码分块划分好的。

如

0 32 64 96 128 160 192 224 256

0 1 2 3 4 5 6 7

这里有8块数据,

对齐的话如一个wrap内的线程每个需要4个bytes的数据，即这个wrap需要32 * 4bytes = 128bytes,如果是对齐的话，那么只需要4次l2 cache的访问即可

如果不是对齐的，如简单的偏移，那么就可能需要用到5次的l2 cache了。

l2每次是进行32bytes进行传输的，是按照已分配的数据进行固定分块传输的

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
cuda coalesced access to global memory

device : titan x compute capblity: 5.2一个wrap内的内存访问是被合并进行内存访问了：而global memory的内存访问在compute capblity 5.2默认是先经过缓存L2 cache 然后当L2 cache不存在的时候才会进行全局访问，然后数据存放在l2 cache,然后将结果访问kernelL2 cache:
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。