共享内存

Jackery_Shh

于 2015-09-01 19:45:45 发布

阅读量2.6k

点赞数 1

分类专栏：并行运算文章标签： cuda并行计算共享内存加载存储模型

本文链接：https://blog.csdn.net/gggg_ggg/article/details/48162207

版权

并行运算专栏收录该内容

13 篇文章 0 订阅

订阅专栏

共享内存实际上是可受用户控制的一级内存。每个SM中的一级内存与共享内存共享一个64KB的内存段。在开普勒架构的设备中，根据应用程序的需要，每一个线程块可以配置为16KB的一级内存或共享内存；而在费米架构的设备中，可以根据喜好选择16KB或48KB的一级内存或共享内存。早期的费米架构的硬件(计算能力为1.X)中只有固定的16KB共享内存而没有以及缓存。共享内存的延迟极低，大约有1.5TB/s的带宽，远远高于全局内存的190GB/s，但是它的速度只有寄存器的十分之一。

在实际的情况中，低端显卡全局内存的速度只有高端显卡的十分之一，但是共享内存的速度几乎在所有(大约有20%不同)的GPU中都一致，因为共享内存的速度受核时频率驱动。因此，在任何显卡中，无论是否为高端显卡，除了使用寄存器，还是要更有效的使用共享内存。

实际上，仅仅看带宽数据，共享内存的带宽为1.5TB/s,全局内存的带宽最高为190GB/s，比率为7:1，换句话说，有效使用共享内存可能获得7倍的加速比。毫无疑问，共享内存是所有关心性能的cuda开发者应该掌握的一个概念。

然而，GPU执行的是一种内存的加载/存储模型(load-store model)，即所有的操作都要在指令寄存器载入后才可以执行；So，加载数据到共享内存与加载数据到寄存器中不同，只有当数据重复利用、全局内存合并，或线程之间有共享数据时才可以使用共享内存才更合适。否则，将数据直接从全局内存加载到寄存器性能才会更好。