CUDA中, 每个线程所能掌控的内存有如下几种:
(1)R / W per thread registers。
(2) R/W per thread local memory(每个线程的局部内存)
(3) R/W per block shared memory(共享内存)
(4) R/W per grid global memory
(5) 只能线程用于读, 不能用于写的per grid constant memory
(6) 只能用线程于读, 不能用于写的texture memory.
另外host掌控这global memory. const memory, texture memory。 能够对这三个内存区域进行读和写。
为了清楚的表达CUDA的内存模型, 见如下图:
注意, global memory 是host和device进行数据读写通信的主要手段。 global区域中的数据对于所有的thread都是可见的。
texture 和constant memory 中, constant 区域是被host进行初始化的。 而且这两个内存区域的内容也是被所有的线程可见。
另外, global, constant, 以及texture的memory区域 是数据读写是延迟较大的区域。
CUDA 有一个API, 即cudaMalloc()函数, 是device的在global memory中分配内存对象所需的内存。 并且使用cudaFree()释放
该global memory中给定的对象。
cudaMemcpy() 函数是内存中数据的移动用的。 传递的方时有如下几种:
HostToHost
HostToDevice
DeviceToDevice
DeviceToDevice