起源于前段时间做的一个GPU实验,关于两个CUDA进程的进程间通信(用CUDA-IPC机制,一个进程在显存中写,另一个进程一边自旋锁一边读数据是否被更改)。实验过程中发现(环境为Ubuntu16/18),在Pascal架构的电脑上做的时候,实验是成功的。然而转到Maxwell架构的电脑上做,发现CUDA程序自旋锁会导致桌面卡住,即使放弃桌面转到tty控制台中做依然失败,因为B进程自旋锁的时候会导致A进程卡主*,根本写不进去。
一开始认为原因是在Pascal架构之前,没有MPS技术,多个cuda进程无法同时在GPU中执行。但事实上软件支持的MPS对硬件计算能力要求不高(>=3.5),cuda>=5.5就可以。且MPS一般默认关闭,在Pascal架构上实验时也并没有开启MPS。
后来发现原因是Pascal架构开始支持计算抢占。
相关技术及对应的架构:
Compute Preemption 计算抢占 :
available since cc6(pascal)
具体抢占策略未公开
假依赖-------->HyperQ-------->软件实现MPS------->硬件实现MPS
Fermi(cc2)---Kapler(cc3)----cc>=3.5∩cuda>=5.5----Volta(cc7)
CUDA Context
GPU的Context可类比于CPU的进程;
上下文主要由以下资源组成:
·程序计数器;·寄存器;·共享内存
——CUDA C权威编程指南
Contex中囊括了Stream
——高性能CUDA应用设计与