CUDA访存优化(1)
- 我们知道,在对CUDA程序进行优化的时候,除了计算部分的优化之外,访存部分的优化也是非常重要。因此,我们需要深入了解NVIDAI GPU的内存架构,然后做相应的访存优化。
latency:延迟
off-chip:片外
on-chip:片内, 片内指的是在SM(多流处理器)上
lauch kernel:运行并行程序
- CUDA的内存结构
- register,寄存器堆
- global memory,全局内存
- local memory,局部内存
- constant memory,常量内存
- shared memory, 共享内存
- texture memory, 纹理内存
- L1 Cache,L1 缓存
- L2 Cache,L2 缓存
- register
- 特点
- on-chip,最低的 latency
- 特点
- global memory
- 特点
- off-chip,高lat
- 特点