第三章
上一章我们讨论了不同内存布局对核函数性能的影响,这一章我们就从硬件的角度,去探究为什么布局会导致核函数运行的不同。
SM简介
上一节我们说到deviceProp的时候,不知道会不会有读者有疑惑,为什么突然会提到multiprocessor(多处理器)这个概念,这个概念又是什么?其实这个multiprocessor,就是我们这一篇推文要介绍的SM。
先来给大家看看SM的结构:
这是Fermi架构下的SM结构,主要有CUDA核心、共享内存/L1缓存,寄存器文件,加载/储存单元和线程束调度器。在后面我会给大家讲解一下,这些东西到底是什么。现在,我们先假设SM是一个黑匣子。我们来探究一下并行处理在SM上运行的特质。
我们再来回顾一下,CUDA是怎么分割全局内存的。网格->块->线程。而其中,线程块实际上是在SM上面执行的。每个线程块都只会被调度到任意一个SM上,并且就在这个SM上并发运行。但是一个SM不止接收一个线程块,它会有多个线程块进行调度。这个调度是根据SM资源的可用性决定的。
抽象,真的抽象。
我们再讲细一点。CUDA和普通的SIMD架构不同的是,CUDA是采用SIMT架构来管理和执行线程的。SIMT架构,也就是单指令多线程架构。在CUDA中,线程的一个小集合叫做线程束(warp)。warp是以32个线程组成的一个小的关于线程的基本单元,每个SM都会