深度学习的兴起,使得多线程以及GPU编程逐渐成为算法工程师无法规避的问题。这里主要记录自己的GPU自学历程。
目录
- 《GPU编程自学1 —— 引言》
- 《GPU编程自学2 —— CUDA环境配置》
- 《GPU编程自学3 —— CUDA程序初探》
- 《GPU编程自学4 —— CUDA核函数运行参数》
- 《GPU编程自学5 —— 线程协作》
- 《GPU编程自学6 —— 函数与变量类型限定符》
- 《GPU编程自学7 —— 常量内存与事件》
- 《GPU编程自学8 —— 纹理内存》
- 《GPU编程自学9 —— 原子操作》
- 《GPU编程自学10 —— 流并行》
八、 纹理内存
同常量内存一样,纹理内存(Texture Memory)也是一种只读内存。 之所以称之为 “纹理”,是因为最初是为图形应用设计的。 当程序中存在大量局部空间操作时,纹理内存可以提高性能。
8.1 为什么纹理内存可以加速
纹理内存可以加速应用主要原因有两方面:
1. 纹理内存也是缓存在片上的,因此一些情况下相比从芯片外的DRAM上获取数据,纹理内存可以通过减少内存请求来提高带宽。
2. 纹理内存是针对图形应用设计的,可以更高效地处理局部空间的内存访问。
从数学的角度,上图中的4个地址并非连续的,在一般的CPU缓存中,这些地址将不会缓存。但由于GPU纹理缓存是专门为了加速这种访问模式而设计的,因此如果在这种情况中使用纹理内存而不是全局内存,那么将会获得性能的提升。
8.2 纹理内存的数据限制
下图是常见内存的存储位置,以及读取模式:
由上图可以看出,纹理内存是只读的,而且可以同时被主机和设备读取。
此外,纹理内存可以被声明为1D、2D或者3D数组,但数组的大小有限制,具体可以点击链接查看《不同计算能力GPU的指标》。
同时纹理内存中存储的数据也必须声明为固定类型,即各种对齐类型中的一种,如(char、short、int、long、float、double等)。