cudaMemGetInfo获取的可用显存和全部显存有问题和实际有出入？CPU多线程调用GPU

我在vs上运行cuda程序，用cudaMemGetInfo获得的总的显存是3g，但是实际应该有4g。可用的显存是3028M，那就是用了44M，但是用GPU-Z和nvidia-smi都显示用了800多M，不知道为什么是这样？

这种问题很难定量。
例如一台有 32GB 内存的机器，但是在 C 里面也没办法全部用上，因此操作系统会占用一部分，至于占用多少？这个是非常底层的事情。
同样的，显存并非完全留给代码使用，驱动层与显卡之间保持通讯，基本上就会长期占用一部分，CUDA 的 Warp Manager 管理器也会长期占用一部分，如果是 Windows 系统，可能图形显示功能也要长期占用一部分。
建议您不需要太纠结与显存的可用数量，从 CUDA 的资源调用来说，显存属于 Global Memory 是“慢速”的存储种类，除非您计算的数据量非常之大，此时该学习一些 steal 技巧来解决吞吐瓶颈，否则纠结与显存数量问题，会偏离您的学习重点。

问题：就是CPUpthread_create创建多个线程，执行GPU代码，会不会有问题？

[size=18.9999980926514px]答：没有任何问题的。你的这个模型（开多个CPU线程，每个线程单独处理1个stream上的kernel启动或者复制任务）其实是最经典的模型。完全无任何问题的。请大胆使用。最常见的是，只有1张卡的时候，同时使用2-3个线程，分别建立2-3个streams，处理该GPU上的多组任务。以及，在多张卡的时候，也可以进一步的将线程数量扩大N倍（N是你的GPU数量），然后每2-3个线程对付一个GPU，这样编程起来逻辑简单，充分压榨GPU。

(是不是一个服务器上2颗CPU，多核的，必须这么用才能把机器的性能发挥到极致？)你这个是另外一个问题了。如果具有2路CPU，每路里面有N个SMP核心，每个核心假设支持2个线程（超线程），的确是可以通过多CPU线程的方式，充分使用CPU的。这个是传统的CPU上的做法。

(2各线程同时访问GPU,会不会有冲突？)这要看你的具体的操作了。如果两个stream里的kernel操作的数据毫无关系，则可以随意进行，如果2个stream里的kernel*可能*同时操作一段缓冲区的位置，尽量使用原子操作保证数据操作如你所想。这是对一张卡上的来说的多卡，非pascal，在P2P Access下，多个stream里的kernel同时操作特定某张卡的特定位置，不能用原子操作的, 而pasca(计算能力6.1），我还没有测试过。暂时不知道结论

以及，需要说明的是，对一张卡上多个流，并不一定必须使用多个CPU线程的，你完全可以只使用1个线程，但是使用多个往往更简洁，方便。