device端,即GPU:
读写----------- 访问单位 -----存储
R/W per-thread register
R/W per-thread local memory
R/W per-block shared memory
R/W per-grid global memory
Read Only per-grid constant memory
host端,即CPU:
R/W per-grid global and constant memory
register 是每个线程私有的,每个线程只能从寄存器和shared mem 中直接读取数据。
在费米架构中,线程之间通信要靠shared mem,而在 kepler 架构中,shuffle指令可以使
每个warp中的不同线程共享寄存器。