1. GPU 的相关的概念, 以及相关的GPU硬件架构
GPU 主要有两个主要的components, 一个是全局内存(global memory), 一个是streaming multiprocessors(SMs, 翻译为流 多处理器)
1.1 global memory
(1) 可以类比这个内存为CPU的RAM
(2) CPU 和GPU 均可以访问到
(3) 目前最大达到24GB, 为去年(2014)11月NVIDIA 推出的K80(双GPU), K80 指标如下(为了显示K80 的牛逼之处, 特与上个版本K40列出进行对比):
(4) 内存的带宽最大达到了480GB/sec
1.2 SMs(流多处理器)
SMs 是GPU的基本组成部分。是真正执行并行运算的部分。 SMs 运行着 我们的 CUDA kernels。 每一个SM 包含着属于这个SM自身的几千个寄存器(register), 自己的控制单元, 自己的高速缓存(Cache), warp schedulers, 以及用于整数和浮点数运算操作的execution cores(执行核)。
(1) registers(寄存器)
每一个SM都有几千个寄存器。 这些寄存器在线程被执行的时候, 分配给不同的线程(threads)。 之所以具有这么多的寄存器是为了提高硬件的吞吐量(throughput), 因为使用寄存器可以减少数据的或者指令传输的延迟。
(2)高速缓存(cache)有以下几种。
O 共享内存(shared memory), 用于当数据在需要不同线程之间进行交换。、
O constant cache, 用于快速的broadcast 从constant memory 读取到的内容。
O texture cache, 用于将texture memory 的bandwidth aggregate 起来。
O L1 cache , 用于减少数据到local 或者global memeory 的延迟(latency)。