Shared Memory,Warp和Bank Conflict

Rita_2017

已于 2022-06-16 09:05:18 修改

阅读量735

点赞数

分类专栏： CUDA编程文章标签： cuda

于 2022-05-08 17:28:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Rita_2017/article/details/124649784

版权

CUDA编程专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1. 概念

Shared memory是片上存储器，因此与local memory或global memory相比更高的带宽和更低的延迟。前提是线程之间没有 bank conflicts。

为了实现高带宽，共享内存被划分为大小相等的内存模块，称为Banks，可以同时访问。因此，任何由 n 个地址组成的内存读取或写入请求都可以同时提供服务，从而产生比单个模块带宽高 n 倍的总带宽。

但是，如果warp内多个线程的内存请求的两个地址位于同一Bank中，则存在bank conflict，并且必须序列化访问。硬件将具有bank conflict的内存请求拆分为根据需要尽可能多的单独的无冲突请求，从而将吞吐量降低一个系数，该系数等于单独的内存请求数。如果单独内存请求的数量为 n，则初始内存请求称为导致 n 路存储体冲突。此处的一个例外是，当 warp 中的多个线程对同一共享内存位置进行寻址时，从而导致广播。在这种情况下，来自不同存储区的多个广播被合并到从请求的共享内存位置到线程的单个多播中。（注意区分：同一Bank（冲突）和同一位置（广播））

因此，为了获得最佳性能，了解内存地址如何映射到内存存储体非常重要，以便安排内存请求，从而最大限度地减少存储体冲突。

在计算能力为 5.x 或更高版本的设备上，每个Bank的每个时钟周期的带宽为 32 位，并且连续的 32 位字被分配给连续的Bank。Warp大小为 32 个线程，Bank的数量也为 32 个，因此Warp中的任何线程之间都可能发生Bank冲突。

2. NVIDIA Tesla V100的Bank组织形式

计算能力7.5，Maximum amount of shared memory per SM为64KB。Bank数量为32，Bank宽度为32-bit(4B)。故每个Bank可保存：

$\frac{64\times 1024}{32\times 4}=512$

个整型或单精度浮点型数。或者说：Bank组织成了512行32列的矩阵。

3. Bank Conflict示例

图 21 显示了共享内存跨步访问(strided access)的一些示例。适用于计算能力为 3.x（在 32 位模式下）或计算能力为 5.x 、 6.x、7.x 的设备。

左：线性寻址，步幅为一个 32 -bit（无bank conflict）。

中间：线性寻址，步幅为两个 32 -bit（双向bank conflict）。

右：线性寻址，步幅为三个 32 -bit（无bank conflict）。

图 22 显示了涉及广播机制的一些内存读取访问示例。计算能力为 3.x、5.x 、 6.x、7.x 的设备的示例。

左：通过随机排列实现无冲突访问。

中间：无冲突访问，因为线程 3、4、6、7 和 9 访问Bank5 中的同一位置。属于广播

右：无冲突广播访问（线程访问Bank内的相同位置）。

（更多可参考：https://blog.csdn.net/endlch/article/details/47043069）

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Shared Memory,Warp和Bank Conflict

1. 概念Shared memory是片上存储器，因此与local memory或global memory相比更高的带宽和更低的延迟。前提是线程之间没有 bank conflicts。为了实现高带宽，共享内存被划分为大小相等的内存模块，称为Banks，可以同时访问。因此，任何由 n 个地址组成的内存读取或写入请求都可以同时提供服务，从而产生比单个模块带宽高 n 倍的总带宽。但是，如果内存请求的两个地址位于同一Bank中，则存在bank conflict，并且必须序列化访问。硬件........
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。