目录
2.更改sources.list (最后发现其实不改也可以,可能因为学校的ipv6访问外网比较快吧,一般的话最好换成国内的软件源下载速度会快一点)
1.检查服务器
lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description: Ubuntu 16.04.3 LTS
Release: 16.04
Codename: xenial
sudo uname --m
[sudo] password for micl:
x86_64
micl@ubuntu-gpu:~$ sudo uname --r
4.4.0-87-generic
micl@ubuntu-gpu:~$ lspci |grep -i vga
00:0f.0 VGA compatible controller: VMware SVGA II Adapter
03:00.0 VGA compatible controller: NVIDIA Corporation Device 1b80 (rev a1)
2.更改sources.list (最后发现其实不改也可以,可能因为学校的ipv6访问外网比较快吧,一般的话最好换成国内的软件源下载速度会快一点)
最后发现其实不用更改sources.list
#sudo sed -i -- 's/#deb-src/deb-src/g'/etc/apt/sources.list
#sudo sed -i -- 's/#deb-src/deb-src/g'/etc/apt/sources.list
解决“Some index files failed to download, they have been ignored, or old ones used instead.”?
3.安装gcc
sudo apt-get build-dep gcc
报错,源不能用
下载离线包安装
gcc-8.2.0.tar.gz
sudo apt-get update
一直在报头
解决:
如果直接退出会导致进程在后台运行,下次运行会提示你已经锁定,这时:
sudo rm /var/cache/apt/archives/lock
sudo rm /var/lib/dpkg/lock
百度解决方法:
1,rm /var/lib/apt/lists/*
rm /var/lib/apt/lists/partial/* 亲测不行
2,
sudo rm /var/lib/dpkg/lock
sudo apt clean
sudo rm /var/lib/dpkg/updates/*
sudo apt update
sudo apt update
换成官方默认的源,继续sudo apt-get update
查找方法:发现多架构支持被设置了ARM,然而我们的平台是X86架构的,不需要ARM平台的支持,先前的问题可能就是这个原因导致的,于是尝试删除这个设置
1.sudo rm -rf /var/lib/apt/lists/*
sudo apt-get remove .*:arm64 #不能运行
sudo dpkg --remove-architecture arm64
之后再次尝试:
成功,找了很多方法,终于解决了!
终于可以安装gcc了,执行sudo apt-get install gcc
安装过程,没有报错。
运行gcc -v ,显示版本为5.4.0 安装成功!
4.安装驱动
sudo ./NVIDIA-Linux-x86_64-396.18.run
根据提示下载安装sudo apt-get install make
报错:
禁用nouveau
cd /etc/modprobe.d/blacklist.conf
blacklist nouveau #禁用nouveau第三方驱动,之后也不需要改回来
sudo update-initramfs -u
重启后执行:lsmod | grep nouveau 如果没有输出就屏蔽好了
禁用X服务
sudo /etc/init.d/lightdm stop
本来装好驱动以后重启服务器,输入命令 nvidia-smi会出现驱动的信息,但是运行的时候报错了。。。
Unable to determine the device handle for GPUXXX:0000:03:00.0:unknown error
查了半天也没解决了。。。决定先继续安装吧。。。
卸载用.run文件安装的CUDA和驱动命令:
$ sudo perl /usr/local/cuda-X.Y/bin/uninstall_cuda_X.Y.pl #uninstall cuda
$ sudo /usr/bin/nvidia-uninstall #uninstall driver
查看驱动版本号
中间遇到服务器登录不上的问题
5.安装cuda
sudo sh ./cuda***.run
检查驱动的版本:NVIDIA 396.18 GCC 5.4.0
检查cuda版本:9.2
配置环境变量:
sudo vi ~/.bashrc
进入以后在文档末尾同样加两行:
export PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}
加完以后执行:
source ~/.bashrc
6.安装cuDNN
在官网下载cuDNN后上传到服务器
解压:
执行;
$ sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
$ sudo chmod +r libcudnn.so.7.0.4
$ sudo ln -sf libcudnn.so.7.0.4 libcudnn.so.7
$ sudo ln -sf libcudnn.so.7 libcudnn.so
$ sudo ldconfig
7.安装miniconda
在当前路径下执行:bash
一路跟着安装向导设置路径:
安装完成后检查版本:
miniconda安装完成。。。
以后需要什么库直接conda install 安装就好了。。。
安装tf的时候又遇到了错误:
感觉好像是安装源的问题。。。更换conda的默认软件源:
更换软件源
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --set show_channel_urls yes
查看当前使用的软件源:
需要更改的话重新配置.condarc文件即可。。
在ubuntu上下载conda
1)删除整个anaconda目录:
由于Anaconda的安装文件都包含在一个目录中,所以直接将该目录删除即可。到包含整个anaconda目录的文件夹下,删除整个Anaconda目录:
rm -rf anaconda文件夹名
2)建议——清理下.bashrc中的Anaconda路径:
1.到根目录下,打开终端并输入:
sudo gedit ~/.bashrc
2.在.bashrc文件末尾用#号注释掉之前添加的路径(或直接删除):
#export PATH=/home/lq/anaconda3/bin:$PATH
保存并关闭文件
3.使其立即生效,在终端执行:
source ~/.bashrc
4.关闭终端,然后再重启一个新的终端,这一步很重要,不然在原终端上还是绑定有anaconda.
终于配置完成了,中间踩过很多坑,最后的配置为:
Ubuntu16.04 + gcc 5.4.0 +cuda 9.2 +cudnn 7.3 +tensorflow