主要内容:cpu和gpu互动模式,gpu线程组织模型(不停强化),gpu存储模型,基本的编程问题
cpu-gpu交互
有各自的物理内存空间,通过PCIE总线互连8GB/s~16GB/s,交互开销很大
访存速度,之所以有访存速度的层次划分是在价格上和性能上的一个折中,不得不考虑到成本问题
寄存器和共享存储单元的速度是一个时钟周期,非常快
local memory放在显存芯片里的片外内存和global memory 在显存里面的,对于整个处理器来说,慢的(不懂啊)
constant memory , texture memory, instruction memory(invisible) 都在DRAM立面
GPU的线程组织模型
thread->block->grid(最大)线程的一些组合变成WARP,WARP在block里
线程组织架构说明
一个Kernel具有大量线程,线程呗划分成线程块blocks,一个线程块内部的线程共享内存Shared Memory可以同步‘_syncthread'
Kernel启动一个grid,包含若干线程块(用户设定)。线程和线程块都有唯一的标识
SM表示流动处理器,一个SM有32个cuda核
GPU线程映射关系
(没听懂,图也看不清)
GPU内存和线程关系
一个thread有私有的local memory&#