安装参考:https://blog.csdn.net/Harpoon_fly/article/details/84260810
1. 环境
ubuntu16.04+GT840M
2. 安装文件
NVIDIA-Linux-x86_64-418.56.run
cuda_9.0.176_384.81_linux.run
cudnn-9.0-linux-x64-v7.3.1.20.solitairetheme8
Anaconda3-5.2.0-Linux-x86_64.sh
3. 走的弯路
1.安装前一定查看显卡驱动版本、cuda版本、cudnn版本、tensorflow在linux和windows下支持的cuda版本和cudnn版本的对应关系。
参考:
cuda和显卡驱动版本对应关系
http://www.cnblogs.com/superxuezhazha/p/10623270.html
Tensorflow不同版本要求与CUDA及CUDNN版本对应关系
https://blog.csdn.net/omodao1/article/details/83241074
显卡各个版本下载地址
https://developer.nvidia.com/cuda-toolkit-archive
2.开始是通过安装cuda.run文件安装显卡驱动的,不成功。最后通过单独安装显卡包解决的。
3.安装显卡驱动后,运行nvidia-smi命令后出现:
nvidia-smi has failed because it couldn’t communicate with the nvidia driver. Make sure that the latest nvidia driver is installed and running.
通过链接中的方法解决。
4.安装tensorflow-gpu后,运行实例可能会出现tensorflow的CUDA driver version is insufficient for CUDA runtime version。
安装命令:conda install tensorflow-gpu -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/
最近清华镜像网址访问不了了,可以访问:
https://repo.anaconda.com/pkgs/main/linux-64/
https://repo.anaconda.com/pkgs/free/linux-64/
用conda list查看,发现安装的cudatoolkit和cudnn版本与你电脑上安装的版本可能不一致,默认安装的tensorflow版本是1.13、cudatoolkit版本是10.0、cudnn是哪个版本忘了。没办法只能卸载cudatoolkit和cudnn,安装相应的版本。
建议安装顺序为cudatoolkit、cudnn、tensorflow
conda install cudatoolkit=9.0 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/
conda install cudnn=7.3.1 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/
conda install tensorflow-gpu -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/
通过访问https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/可以查看可以安装的版本如下,有可能前期你装的cuda和cudnn版本会和后面tensorflow能支持的版本不一样,安装前一定要先查看支持的版本。而且不同的源中的支持的版本也不一样:
cudatoolkit-10.0.130-0.tar.bz2
cudatoolkit-9.0-h13b8566_0.tar.bz2
cudatoolkit-9.2-0.tar.bz2
cudnn-7.0.5-cuda8.0_0.tar.bz2
cudnn-7.1.2-cuda9.0_0.tar.bz2
cudnn-7.1.3-cuda8.0_0.tar.bz2
cudnn-7.2.1-cuda9.2_0.tar.bz2
cudnn-7.3.1-cuda10.0_0.tar.bz2
cudnn-7.3.1-cuda9.0_0.tar.bz2
cudnn-7.3.1-cuda9.2_0.tar.bz2
5.运行实例报错
ImportError: DLL load failed: 找不到指定的模块 Failed to load the native TensorFlow runtime
最后降低tensorflow版本为1.12.0,解决了该问题。
附加:
18.04版本,安装显卡驱动时,关闭图形界面,报错:
sudo service lightdm stop
Failed to stop lightdm.service: Unit lightdm.service not loaded.
那就安装lightdm
apt install lightdm
安装完成,系统会提示选择登录界面程序,两个选项gdm3和lightdm,选择lightdm。
安装cuda时,出现:
Toolkit: Installation Failed. Using unsupported Compiler.
解决的方法很简单,直接在安装命令之后加–override再安装。
超详细:win10安装tensorflow-gpu1.8.0完整步骤
https://blog.csdn.net/xiaohuihui1994/article/details/83589701
Linux从入门到适应(四):Ubuntu 16.04环境下,安装Nvidia驱动,cuda9.2和 cudnn
http://www.cnblogs.com/code-wangjun/p/9986255.html
Ubuntu 16.04 卸载Nvidia显卡驱动和cuda
https://blog.csdn.net/ezhchai/article/details/80536949
windows如何卸载cuda8.0
https://blog.csdn.net/m0_37160535/article/details/80077903
https://www.zhihu.com/question/52174028/answer/272248256
TensorFlow 官方文档中文版
https://github.com/jikexueyuanwiki/tensorflow-zh