前提:服务器已安装了cuda、cudnn、anaconda3,python3.6
过程:出现这个问题的时候查了很多资料,下面归纳总结碰到此问题时可以从以下三个方面进行尝试。
方法一、服务器cuda
确认服务器安装了多少cuda以及其版本。确认服务器cuda版本的命令有以下三个:
nvidia-smi
这个命令既可以查cuda的驱动API版本,也可以查看GPU运行状态;
ncvv -V
查看cuda的runtime API 版本;
cat /usr/local/cuda/version.txt
如果不知道cuda这两个API什么意思的,感兴趣的可以看这里说明
以上三个命令都可以查看cuda版本,如果一致的话,可以核实安装的pytorch版本是否与cuda版本对应并安装对应的pytorch。如果不一致,则尝试下面第二种解决方法。
我的情况是ncvv -V查出来是cuda 9.0,cat /usr/local/cuda/version.txt查出来是cuda 8.0,所以我尝试了方法二。
方法二、配置环境变量
修改profile文件:
sudo gedit /etc/profile
在末尾加上:
export PATH=/usr/local/cuda-8.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64$LD_LIBRARY_PATH
export CUDA_HOME=/usr/local/cuda-8.0
然后source /etc/profile.<