最近在Ubuntu下配置深度学习的环境。原本想着用anaconda直接配完就算了,没想到安装完之后发现有如下错误:
Failed to get convolution algorithm. This is probably because cuDNN failed to initialize, so try looking to see if a warning log message was printed above.
我执行的命令是`conda install tensorflow-gpu`,什么参数都没加。后面试了一下2.1版本发现也是这样,这就很麻烦了,遂决定自行安装CUDA。
然而自己装CUDA是真的麻烦,如果使用NVIDIA的ppa网上安装的话速度慢的要死。如果使用.deb文件的话发现仓库又加不进去,运行最后一条命令运行不了。用.run文件发现要删驱动,把驱动删完发现又跑不动。
作为一个刚用ubuntu没多久的菜鸡,我最终还是选择用国内镜像。一搜国内镜像,第一条就是阿里云,后面的工作就是把所有nvidia原始命令中的地址换成阿里云的地址。
wget https://mirrors.aliyun.com/nvidia-cuda/ubuntu1804/x86_64/cuda-ubuntu1804.pin
sudo mv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://mirrors.aliyun.com/nvidia-cuda/ubuntu1804/x86_64/7fa2af80.pub
sudo add-apt-repository "deb https://mirrors.aliyun.com/nvidia-cuda/ubuntu1804/x86_64/ /"
sudo apt-get update
sudo apt-get -y install cuda-10-1
最后这个10-1和原文不同,大小居然有4个G。目前正在安装中,到最后我也没想明白为什么nvidia原文不用加版本号,是因为默认添加的仓库只有一个版本吗?
目前还没有装完,希望一切顺利,能让我在今晚用上ubuntu来跑深度学习。其他环境设置见tensorflow官方GPU支持
https://www.tensorflow.org/install/gpu#ubuntu_1604_cuda_10www.tensorflow.orgPS:
- 记得一定要将`/usr/local/cuda/bin`加入到PATH中,不然nvcc -V是跑不了的
- 居然还是不行,依旧报错。今晚又用不了了。