cudaMemGetInfo获取的可用显存和全部显存有问题和实际有出入?CPU多线程调用GPU

我在vs上运行cuda程序,用cudaMemGetInfo获得的总的显存是3g,但是实际应该有4g。可用的显存是3028M,那就是用了44M,但是用GPU-Z和nvidia-smi都显示用了800多M,不知道为什么是这样?

Tesla P100
这种问题很难定量。
例如一台有 32GB 内存的机器,但是在 C 里面也没办法全部用上,因此操作系统会占用一部分,至于占用多少?这个是非常底层的事情。
同样的,显存并非完全留给代码使用,驱动层与显卡之间保持通讯,基本上就会长期占用一部分,CUDA 的 Warp Manager 管理器也会长期占用一部分,如果是 Windows 系统,可能图形显示功能也要长期占用一部分。
建议您不需要太纠结与显存的可用数量,从 CUDA 的资源调用来说,显存属于 Global Memory 是“慢速”的存储种类,除非您计算的数据量非常之大,此时该学习一些 steal 技巧来解决吞吐瓶颈,否则纠结与显存数量问题,会偏离您的学习重点。
问题:就是CPUpthread_create创建多个线程,执行GPU代码,会不会有问题?

[size=18.9999980926514px]答:没有任何问题的。你的这个模型(开多个CPU线程,每个线程单独处理1个stream上的kernel启动或者复制任务)其实是最经典的模型。完全无任何问题的。请大胆使用。最常见的是,只有1张卡的时候,同时使用2-3个线程,分别建立2-3个streams,处理该GPU上的多组任务。以及,在多张卡的时候,也可以进一步的将线程数量扩大N倍(N是你的GPU数量),然后每2-3个线程对付一个GPU,这样编程起来逻辑简单,充分压榨GPU。


(是不是一个服务器上2颗CPU,多核的,必须这么用才能把机器的性能发挥到极致?)你这个是另外一个问题了。如果具有2路CPU,每路里面有N个SMP核心,每个核心假设支持2个线程(超线程),的确是可以通过多CPU线程的方式,充分使用CPU的。这个是传统的CPU上的做法。


(2各线程同时访问GPU,会不会有冲突?)这要看你的具体的操作了。如果两个stream里的kernel操作的数据毫无关系,则可以随意进行,如果2个stream里的kernel*可能*同时操作一段缓冲区的位置,尽量使用原子操作保证数据操作如你所想。这是对一张卡上的来说的多卡,非pascal,在P2P Access下,多个stream里的kernel同时操作特定某张卡的特定位置,不能用原子操作的,而pasca(计算能力6.1),我还没有测试过。暂时不知道结论


以及,需要说明的是,对一张卡上多个流,并不一定必须使用多个CPU线程的,你完全可以只使用1个线程,但是使用多个往往更简洁,方便。


展开阅读全文

没有更多推荐了,返回首页