共享内存

       共享内存实际上是可受用户控制的一级内存。每个SM中的一级内存与共享内存共享一个64KB的内存段。在开普勒架构的设备中,根据应用程序的需要,每一个线程块可以配置为16KB的一级内存或共享内存;而在费米架构的设备中,可以根据喜好选择16KB48KB的一级内存或共享内存。早期的费米架构的硬件(计算能力为1.X)中只有固定的16KB共享内存而没有以及缓存。共享内存的延迟极低,大约有1.5TB/s的带宽,远远高于全局内存的190GB/s,但是它的速度只有寄存器的十分之一。

        在实际的情况中,低端显卡全局内存的速度只有高端显卡的十分之一,但是共享内存的速度几乎在所有(大约有20%不同)的GPU中都一致,因为共享内存的速度受核时频率驱动。因此,在任何显卡中,无论是否为高端显卡,除了使用寄存器,还是要更有效的使用共享内存。

实际上,仅仅看带宽数据,共享内存的带宽为1.5TB/s,全局内存的带宽最高为190GB/s,比率为7:1,换句话说,有效使用共享内存可能获得7倍的加速比。毫无疑问,共享内存是所有关心性能的cuda开发者应该掌握的一个概念。

       然而,GPU执行的是一种内存的加载/存储模型(load-store model),即所有的操作都要在指令寄存器载入后才可以执行;So,加载数据到共享内存与加载数据到寄存器中不同,只有当数据重复利用、全局内存合并,或线程之间有共享数据时才可以使用共享内存才更合适。否则,将数据直接从全局内存加载到寄存器性能才会更好。



  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值