3.5 常量存储器优化
CUDA 允许分配最多64KB的常量存储器,常量存储器顾名思义内容是不变的,所以也有人称其为不变存储器。每个SM有6-8KB的常量缓存,一般而言一到两个周期可读取常量存储器。如果半束内的线程访问的不是同一个地址,那么各个线程的访问将会串行化。
常量存储器的设计个人认为不是太好,有点像鸡肋。因为要求常量存储器是全局的,因此对程序的可读性和可扩展性都有影响。
对于常量存储器大小的限制问题,有些情况下,可以使用多次导入并多次执行内核的方式解决。
3.6 纹理存储器
纹理存储器是来自图形学的一个概念。由于硬件的支持,提供了很多额外处理功能,如边界处理、滤波等。访问纹理存储器要通过纹理参考和纹理获取。
CUDA对于随机存取的性能极其的悲剧,而纹理存储器可减弱这种悲剧的效果,尤其是访问的数据之间具有极大的局部性的时候。
另外在某些情况下可以利用纹理的插值功能来加速计算。此时要注意的纹理执行的是低精度的线性插值。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/23057064/viewspace-666277/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/23057064/viewspace-666277/