- 背景
老师说跑代码的时候刚开始几次还挺顺的,突然有一次就卡卡的,服务器就卡死了。明明是一样的代码,再用以前跑过的代码来跑,发现也卡了,cpu超负荷运行。代码的数据预处理部分是用cpu跑的,然后调用GPU处理剩下的部分。看了GPU和cpu(top)的占用情况,发现GPU没有被调用,完全是用cpu跑的,所以卡死了。
- 分析
服务器出现的问题:一直显示cuda是7.5的版本(现在切换回来9.0了)
之前的一直用cpu是因为:代码没动(所以代码没问题),cuda不知道被谁换成7.5了,代码之前是基于cuda9.0写的,
虽然有使用gpu的语句但是一直没用到cuda(版本对不上,一些库用不了,所以代码默认没找到GPU,使用CPU了)
- 解决
rm -rf /usr/local/cuda #删除之前创建的软链接
sudo ln -s /usr/local/cuda-9.0/ /usr/local/cuda #建立新的cuda9.0的软连接
nvcc --version #查看cuda版本
注意指令的格式: