CUDA学习——GPU内存

全局内存

通俗意义上的设备内存

共享内存

  1. 位置:设备内存。
  2. 形式:关键字__shared__添加到变量声明中。如__shared__ float cache[10]。
  3. 目的:对于GPU上启动的每个线程块,CUDA C编译器都将创建该共享变量的一个副本。线程块中的每个线程都共享这块内存,但线程却无法看到也不能修改其他线程块的变量副本。这样使得一个线程块中的多个线程能够在计算上通信和协作。

常量内存

  1. 位置:设备内存
  2. 形式:关键字__constant__添加到变量声明中。如__constant__ float s[10];。
  3. 目的:为了提升性能。常量内存采取了不同于标准全局内存的处理方式。在某些情况下,用常量内存替换全局内存能有效地减少内存带宽。
  4. 特点:常量内存用于保存在核函数执行期间不会发生变化的数据。变量的访问限制为只读。NVIDIA硬件提供了64KB的常量内存。不再需要cudaMalloc()或者cudaFree(),而是在编译时,静态地分配空间。
  5. 要求:当我们需要拷贝数据到常量内存中应该使用cudaMemcpyToSymbol(),而cudaMemcpy()会复制到全局内存。
  6. 性能提升的原因:
  • 6.1. 对常量内存的单次读操作可以广播到其他的“邻近”线程。这将节约15次读取操作。(为什么是15,因为“邻近”指半个线程束,一个线程束包含32个线程的集合。)
  • 6.2. 常量内存的数据将缓存起来,因此对相同地址的连续读操作将不会产生额外的内存通信量。

纹理内存

  1. 位置:设备内存
  2. 目的:能够减少对内存的请求并提供高效的内存带宽。是专门为那些在内存访问模式中存在大量空间局部性的图形应用程序设计,意味着一个线程读取的位置可能与邻近线程读取的位置“非常接近”。
  3. 纹理变量(引用)必须声明为文件作用域内的全局变量。
  4. 形式:分为一维纹理内存 和 二维纹理内存。
  • 4.1. 一维纹理内存
    • 用texture<类型>类型声明,如texture texIn。
    • 通过cudaBindTexture()绑定到纹理内存中。
    • 通过tex1Dfetch()来读取纹理内存中的数据。
    • 通过cudaUnbindTexture()取消绑定纹理内存。
  • 4.2. 二维纹理内存
    • 用texture<类型,数字>类型声明,如texture<float,2> texIn。
    • 通过cudaBindTexture2D()绑定到纹理内存中。
    • 通过tex2D()来读取纹理内存中的数据。
    • 通过cudaUnbindTexture()取消绑定纹理内存。

固定内存

  1. 位置:主机内存。
  2. 概念:也称为页锁定内存或者不可分页内存,操作系统将不会对这块内存分页并交换到磁盘上,从而确保了该内存始终驻留在物理内存中。因此操作系统能够安全地使某个应用程序访问该内存的物理地址,因为这块内存将不会破坏或者重新定位。
  3. 目的:提高访问速度。由于GPU知道主机内存的物理地址,因此可以通过“直接内存访问DMA(Direct Memory Access)技术来在GPU和主机之间复制数据。由于DMA在执行复制时无需CPU介入。因此DMA复制过程中使用固定内存是非常重要的。
  4. 缺点:使用固定内存,将失去虚拟内存的所有功能;系统将更快的耗尽内存。
  5. 建议:对cudaMemcpy()函数调用中的源内存或者目标内存,才使用固定内存,并且在不再需要使用它们时立即释放。
  6. 形式:通过cudaHostAlloc()函数来分配;通过cudaFreeHost()释放。
  7. 只能以异步方式对固定内存进行复制操作。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值