最开始的两天直接在官网下的cuda9.0,也没在意,就安装了,觉得最新的肯定是最好的嘛,但后来装tensorflow到最后一步的时候总是出错,主要报找不到libcusolver.so.8.0,再百度才意识到目前tensorflow还不支持cuda9.0,主要参考这篇文章
http://www.52nlp.cn/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%9C%8D%E5%8A%A1%E5%99%A8%E7%8E%AF%E5%A2%83%E9%85%8D%E7%BD%AE-ubuntu17-04-nvidia-gtx-1080-cuda-9-0-cudnn-7-0-tensorflow-1-3#comments
然后就先把cuda9.0卸载了,
sudo apt-get --purge remove cuda
准备重装,后来觉得实在麻烦,不如直接重装系统,再来一次。。。
装NVIDIA驱动384.69
装cuda8.0
在cuda_8.0.44_linux文件的文件夹下直接运行,嫌
sudo sh cuda_8.0.44_linux.run
,不需要装NVIDIA驱动,其他我都选的yes,安装好并没有太大问题。官网慢的可以在这下链接: https://pan.baidu.com/s/1eSKTL9w 密码: 6a3r
装cudnn v7.0.2
一开始在官网下的是cudnn v7,不过到后面tensorflow装好后import tensorflow
报错:
ImportError: libcudnn.so.6: cannot open shared object file: No such file or directory
才发现下的cudnn v7难道也不能和cuda8.0和谐工作?就又下了个cudnn v6,按官网guide一步一步来,另外注意到官方说了
v7可以和v6共存,我就没管链接间的替换了,直接解压拷贝:
tar -xzvf cudnn-8.0-osx-x64-v7.tgz
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
还有最重要的一点,加入 LD_LIBRARY_PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
cudnn就算装好了
装tensorflow
按官网指导,一步一步来,这里注意到www.tensorflow.org和tensorflow中文社区的教程是有一点出入的,我主要是按www.tensorflow.org来的,中文的有点落后了,大家自己小心。
很重要的一点是参考这个深度学习服务器环境配置: Ubuntu17.04+Nvidia GTX 1080+CUDA 9.0+cuDNN 7.0+TensorFlow 1.3里的换了清华的镜像,在执行pip install --upgrade tensorflow-gpu
时真的会快很多,不然真的超级慢超级慢,还动不动就停住重来,真是心酸的经历啊。。。
哎,最后总算是装好了,跑个hello world吧,
总结
实际过程中完全不像上面写的这样流畅,每一步几乎都反复了三四次,顺序也是乱来了好几次,折腾了好久以后,直到最后一次重装系统时才意识到整个的正确安装流程什么样,这里记下,防止下次装时再忘了吧。