安装ubuntu server16.04服务器参照:https://wenku.baidu.com/view/3159aa3a49d7c1c708a1284ac850ad02de8007c8.html
该方法中的U盘刻录采用Universal-USB-installer-1.9.6.4。缺点为:不能本地安装,需要在线。在安装过程中需要下载一个国家的镜像。
下载完成后,在本机上输入ssh username@IP 进行连接。
scp /file username@IP:/服务器的目录(该方法为将本机的文件拷贝到服务器上) 注:目录需要压缩。
安装Anaconda和tensorflow:
按照教程安装完Anaconda,可以选择在服务器上安装,或者在本机远程控制安装。
安装gpu驱动:
参照:https://blog.csdn.net/weixin_41864878/article/details/79621210
$ nvidia-smi
- Wed Apr 11 10:15:24 2018
- +-----------------------------------------------------------------------------+
- | NVIDIA-SMI 390.48 Driver Version: 390.48 |
- |-------------------------------+----------------------+----------------------+
- | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
- | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
- |===============================+======================+======================|
- | 0 GeForce GTX 1080ti Off | 00000000:01:00.0 On | N/A |
- | 21% 48C P8 16W / 200W | 127MiB / 8111MiB | 0% Default |
- +-------------------------------+----------------------+----------------------+
- +-----------------------------------------------------------------------------+
- | Processes: GPU Memory |
- | GPU PID Type Process name Usage |
- |=============================================================================|
- | 0 911 G /usr/lib/xorg/Xorg 125MiB |
- +-----------------------------------------------------------------------------+
查看自己GPU的版本号:
然后进入英伟达官网进行下载:
选择对应自己版本号的.run文件。
***打开终端,首先卸载一下之前安装的:*****
$ sudo apt-get --purge remove nvidia-*
打开blacklist:
$ sudo gedit /etc/modprobe.d/blacklist.conf
在最后添加几行:
blacklist vga16fb
blacklist nouveau
blacklist rivafb
blacklist nvidiafb
blacklist rivatv
保存退出。
测试以下:
$ lsmod | grep nouveau
如果没有输出,可以忽略下面这一段。
直接开始安装1080ti的驱动,如果仍有输出,终端输入:
$ sudo gedit /etc/modprobe.d/blacklist-nouveau.conf
直接写入:
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
保存关闭,再尝试:
$ sudo update-initramfs -u
$ reboot
$ lsmod | grep nouveau
1、开始安装驱动:
$ sudo /etc/init.d/lightdm stop
$ sudo init 3
$ sudo /驱动的地址/NVIDIA-Linux-x86_64-390.42.run -no-x-check -no-nouveau-check -no-opengl-files
$ sudo /etc/init.d/lightdm start
这里是关闭x server,nouveau和不下载opengl文件。
$ nvidia-smi #查看以下是否成功。
之后reboot。
2、开始安装 CUDA ##这里选择的时CUDA-9.0。之前一直安装新的版本和8.0但是总报错。。。。。只有cuda-9.0和cudnn-7.0好用。
进入这里下载。。
这里选择runfile(local):
输入命令:
$ sudo sh cuda_9.0.176_384.81_linux.run##编译该文件
编译过程中需要很长时间,在读文件时,按q。。
特别需要注意下:Graphics Driver for Linux-x86_64:XXXX时::::::::::需要选择NO。。。。防止版本覆盖:
在终端输入:
$ sudo gedit ~/.bashrc
在最后加上:
export PATH=/usr/local/cuda-9.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
$ source ~/.bashrc
在profile中也输入上面两行声明
$ sudo gedit /etc/profile
保存退出,reboot一下
3、安装cudnn
在这里下载::
选择该文件:
在终端输入命令:
$ sudo rm -rf /usr/local/cuda/include/cudnn.h
$ sudo rm -rf /usr/local/cuda/lib64/libcudnn* ###########卸载之前安装的
$ tar -zxvf cudnn-9.0-linux-x64-v7.tgzcuda/include/cudnn.h
cuda/NVIDIA_SLA_cuDNN_Support.txt
cuda/lib64/libcudnn.so
cuda/lib64/libcudnn.so.7
cuda/lib64/libcudnn.so.7.0.5
cuda/lib64/libcudnn_static.a
$ sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
##解压文件 同时拷贝在根目录下
到/usr/local/cuda/lib64/目录下,创建软连接,终端输入
$ sudo chmod +r libcudnn.so.7.0.5
$ sudo ln -sf libcudnn.so.7.0.5 libcudnn.so.7
$ sudo ln -sf libcudnn.so.7 libcudnn.so
$ sudo ldconfig
测试以下:
$ ll
查看是否含有:
lrwxrwxrwx 1 root root 13 3月 19 16:02 libcudnn.so -> libcudnn.so.7*
lrwxrwxrwx 1 root root 17 3月 19 16:02 libcudnn.so.7 -> libcudnn.so.7.0.5*
-rwxr-xr-x 1 root root 287641664 3月 19 16:00 libcudnn.so.7.0.5*
4、安装tensorflow-gpu
按照上述安装完Anaconda以后,进入tensorflow环境::::
输入:
pip install --ignore-installed --upgrade tfBinaryURL
该命令参考清华镜像给出的命令,地址为:清华镜像网站。
我选择的是1.5版本。。。。。。。。选择1.6以上的爆出错误,原因应该是网络的问题。。。。
下载以后测试。。>>>python
>>>import tensorflow as tf
>>>tf.__version__
查看是否报错。。。
耗时三天,终于完成了。特别感谢 参照的两位博主。