一、预准备
1、查看是否有gpu
lspci | grep -i nvidia
2、安装必备的软件
yum install gcc
yum install gcc-g++ 应该是gcc-c++
yum install kernel-devel
yum install kernel-headers
3、关闭系统自带驱动Nouveau drivers(可参考官方手册https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#runfile)
4、yum update;这个非常重要,否则会一直报错,提示无法定位kernel;
二、安装cuda
1、下载cuda,网址(https://developer.nvidia.com/cuda-downloads),根据自己的操作系统来下载对应的cuda
选择了Linux+centos7+runfile;官方给出安装命令:
Installation Instructions:
Run `sudo sh cuda_9.1.85_387.26_linux.run`
Follow the command-line prompts(除了不安装驱动,其他都yes)
由于下载安装的tensorflow1.8,但只能用9.0的cuda,所以安装后用不了,提示无法找到9.0的东西
2、下载cuda9.0的东西,然后安装,再配置环境变量(export LD_LIBRARY_PATH=LD_LIBRARY_PATH:/usr/local/cuda-9.0/lib64/),reboot
vim .bashrc
source .bashrc
3、然后下载cudnn7,将对应的文件copy到cuda下,提示无法找到libcudnn.so.7;搜索发现该文件属于cudnn9.0;而cudnn7.0..v5对应的文档是libcudnn.so.5;可参考:
4、下载cudnn-9.0-linux-x64-v7,然后将对应的文件copy到cuda的对应目录下;
5、最后测试ok
三、总结
这个安装共用时2天,首先是无法定位到核;然后是无法找到cuda9.0,最后是无法找到libcudnn.so.7;
解决的方法上面已经给出;最重要的经验是cuda与cudnn的版本要与tensorflow-gpu版本相对应;抓住这条主线可以省略不少时间
20180912在centos7.5版本上安装cuda9.1时,上述方法仍然无法定位到核,使用如下命令,就可以了:
sudo yum install epel-release
yum install --enablerepo=epel dkms