当初接触nvidia显卡让我一头雾水
ubuntu系统安装、nvidia显卡驱动安装遇到的坑
什么循环桌面不能进系统,tesla k80 的算力问题 升级为现在的 GeForce RTX 2080 Ti
在了解nvidia-smi命令后
具体nvidia-smi命令详情见
【小伟哥AI之路】nvidia-smi之GPU状态监测命令详解
进入正题
如果显卡数量在4张以上,在nvidia-smi信息后会非常的慢,非常的卡。尤其在只在乎计算量服务器的时候。
我试过把8张卡 tesla K80 显卡一个个拆下来 8张、7张 6/5/4/3/2/1 试试nvidia-smi 结果速度都一样。
需要4到5分钟时间,甚至都不出直接死机。
举例说明:
在执行TensorFlow训练推理过程调用cuda进行gpu调用时,往往会出现超时,报出错误。
在安装好CUDA、CUDNN、NVIDIA driver之后,使用mxnet框架的时候出现该错误
【err】开启Persistence-M模式-Check failed: err == CUBLAS_STATUS_SUCCESS (1 vs. 0) : Create cublas handle failed
terminate called after throwing an instance of 'dmlc::Error'
what(): [16:42:29] /home/travis/build/dmlc/mxnet-distro/mxnet-build/3rdparty/mshadow/mshadow/./stream_gpu-inl.h:115: Check failed: err == CUBLAS_STATUS_SUCCESS (1 vs. 0) : Create cublas handle failed
Stack trace:
*************
[bt] (6) ~/miniconda3/bin/../lib/libstdc++.so.6(+0xb8678) [0x7f8622101678]
[bt] (7) /lib/x86_64-linux-gnu/libpthread.so.0(+0x76ba) [0x7f86731206ba]
[bt] (8) /lib/x86_64-linux-gnu/libc.so.6(clone+0x6d) [0x7f8672e5641d]
Aborted (core dumped)
解决方法
开始的时候以为是driver没有安装好,但是使用nvidia-s