CUDA学习——GPU内存

最新推荐文章于 2023-12-21 20:53:28 发布

weixin_35244138

最新推荐文章于 2023-12-21 20:53:28 发布

阅读量133

点赞数 1

分类专栏： Cuda 文章标签： CUDA

本文链接：https://blog.csdn.net/weixin_35244138/article/details/90249585

版权

4 篇文章 0 订阅

订阅专栏

全局内存

通俗意义上的设备内存

位置：设备内存。
形式：关键字__shared__添加到变量声明中。如__shared__ float cache[10]。
目的：对于GPU上启动的每个线程块，CUDA C编译器都将创建该共享变量的一个副本。线程块中的每个线程都共享这块内存，但线程却无法看到也不能修改其他线程块的变量副本。这样使得一个线程块中的多个线程能够在计算上通信和协作。

位置：设备内存
形式：关键字__constant__添加到变量声明中。如__constant__ float s[10];。
目的：为了提升性能。常量内存采取了不同于标准全局内存的处理方式。在某些情况下，用常量内存替换全局内存能有效地减少内存带宽。
特点：常量内存用于保存在核函数执行期间不会发生变化的数据。变量的访问限制为只读。NVIDIA硬件提供了64KB的常量内存。不再需要cudaMalloc()或者cudaFree(),而是在编译时，静态地分配空间。
要求：当我们需要拷贝数据到常量内存中应该使用cudaMemcpyToSymbol()，而cudaMemcpy()会复制到全局内存。
性能提升的原因：

6.1. 对常量内存的单次读操作可以广播到其他的“邻近”线程。这将节约15次读取操作。（为什么是15，因为“邻近”指半个线程束，一个线程束包含32个线程的集合。）
6.2. 常量内存的数据将缓存起来，因此对相同地址的连续读操作将不会产生额外的内存通信量。

位置：设备内存
目的：能够减少对内存的请求并提供高效的内存带宽。是专门为那些在内存访问模式中存在大量空间局部性的图形应用程序设计，意味着一个线程读取的位置可能与邻近线程读取的位置“非常接近”。
纹理变量（引用）必须声明为文件作用域内的全局变量。
形式：分为一维纹理内存和二维纹理内存。

4.1. 一维纹理内存
- 用texture<类型>类型声明，如texture texIn。
- 通过cudaBindTexture()绑定到纹理内存中。
- 通过tex1Dfetch()来读取纹理内存中的数据。
- 通过cudaUnbindTexture()取消绑定纹理内存。
4.2. 二维纹理内存
- 用texture<类型,数字>类型声明，如texture<float，2> texIn。
- 通过cudaBindTexture2D()绑定到纹理内存中。
- 通过tex2D()来读取纹理内存中的数据。
- 通过cudaUnbindTexture()取消绑定纹理内存。

位置：主机内存。
概念：也称为页锁定内存或者不可分页内存，操作系统将不会对这块内存分页并交换到磁盘上，从而确保了该内存始终驻留在物理内存中。因此操作系统能够安全地使某个应用程序访问该内存的物理地址，因为这块内存将不会破坏或者重新定位。
目的：提高访问速度。由于GPU知道主机内存的物理地址，因此可以通过“直接内存访问DMA（Direct Memory Access)技术来在GPU和主机之间复制数据。由于DMA在执行复制时无需CPU介入。因此DMA复制过程中使用固定内存是非常重要的。
缺点：使用固定内存，将失去虚拟内存的所有功能；系统将更快的耗尽内存。
建议：对cudaMemcpy()函数调用中的源内存或者目标内存，才使用固定内存，并且在不再需要使用它们时立即释放。
形式：通过cudaHostAlloc()函数来分配；通过cudaFreeHost()释放。
只能以异步方式对固定内存进行复制操作。

关注