参考《并行计算与实现技术》,初学过程毕竟不易,且行且珍惜!
1、每个网格内的多个线程块需要分配到不同的流多处理器SM上分别调度运行;
同一个SM上可以有多个活动的线程块轮转执行,但是同一时刻只能有一个线程块运行。
2、线程块内的各个线程需要以线程束为单位分配到每个流处理器SP上调度运行;
同一个SP上可以有多个活动的线程束轮转执行,但是同一时刻只能有一个线程束运行。
3、以G80系列GPU为例,调度器以线程块为单位将线程分配到SM上,每个SM上最多同时有8个活动的线程块,最后可以有768个活动的线程。
(1)当线程块大小为256时,即一个线程块有256个线程时,SM上最多有3个线程块;
(2)当..................为128时,最多有6个线程块;
(3)当...................为64时,只能有8个。
4、内核调度过程中的线程声明周期: