ubuntu16.04+gcc+cuda+cuDNN 深度学习服务器配置

目录

1.检查服务器

2.更改sources.list (最后发现其实不改也可以,可能因为学校的ipv6访问外网比较快吧,一般的话最好换成国内的软件源下载速度会快一点)

3.安装gcc

4.安装驱动 

禁用nouveau

禁用X服务

5.安装cuda

6.安装cuDNN

7.安装miniconda

在ubuntu上下载conda


1.检查服务器

lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 16.04.3 LTS
Release:        16.04
Codename:       xenial

 

sudo uname --m
[sudo] password for micl:
x86_64

 

micl@ubuntu-gpu:~$ sudo uname --r
4.4.0-87-generic

 

micl@ubuntu-gpu:~$ lspci |grep -i vga
00:0f.0 VGA compatible controller: VMware SVGA II Adapter
03:00.0 VGA compatible controller: NVIDIA Corporation Device 1b80 (rev a1)

2.更改sources.list (最后发现其实不改也可以,可能因为学校的ipv6访问外网比较快吧,一般的话最好换成国内的软件源下载速度会快一点)

最后发现其实不用更改sources.list

#sudo sed -i -- 's/#deb-src/deb-src/g'/etc/apt/sources.list 

#sudo sed -i -- 's/#deb-src/deb-src/g'/etc/apt/sources.list

 

解决“Some index files failed to download, they have been ignored, or old ones used instead.”?

 

3.安装gcc

sudo apt-get build-dep gcc  

报错,源不能用

下载离线包安装

gcc-8.2.0.tar.gz

sudo apt-get update

一直在报头

解决:

如果直接退出会导致进程在后台运行,下次运行会提示你已经锁定,这时:

sudo rm /var/cache/apt/archives/lock

sudo rm /var/lib/dpkg/lock

百度解决方法:

1,rm /var/lib/apt/lists/* 
rm /var/lib/apt/lists/partial/*   亲测不行

2,

sudo rm  /var/lib/dpkg/lock
sudo apt clean
sudo rm /var/lib/dpkg/updates/*
sudo apt update

 

sudo apt update

换成官方默认的源,继续sudo apt-get update

查找方法:发现多架构支持被设置了ARM,然而我们的平台是X86架构的,不需要ARM平台的支持,先前的问题可能就是这个原因导致的,于是尝试删除这个设置

1.sudo rm -rf /var/lib/apt/lists/*

sudo apt-get remove .*:arm64   #不能运行

sudo dpkg --remove-architecture arm64

之后再次尝试:

成功,找了很多方法,终于解决了!

 

终于可以安装gcc了,执行sudo apt-get install gcc

安装过程,没有报错。

运行gcc -v ,显示版本为5.4.0 安装成功!

 

4.安装驱动 

 sudo ./NVIDIA-Linux-x86_64-396.18.run

根据提示下载安装sudo apt-get install make

报错:

禁用nouveau

cd /etc/modprobe.d/blacklist.conf

blacklist nouveau   #禁用nouveau第三方驱动,之后也不需要改回来

sudo update-initramfs -u

重启后执行:lsmod | grep nouveau 如果没有输出就屏蔽好了

禁用X服务

sudo /etc/init.d/lightdm stop

本来装好驱动以后重启服务器,输入命令  nvidia-smi会出现驱动的信息,但是运行的时候报错了。。。

Unable to determine the device handle for GPUXXX:0000:03:00.0:unknown error

查了半天也没解决了。。。决定先继续安装吧。。。

 

卸载用.run文件安装的CUDA和驱动命令:

$ sudo perl /usr/local/cuda-X.Y/bin/uninstall_cuda_X.Y.pl #uninstall cuda

$ sudo /usr/bin/nvidia-uninstall #uninstall driver

查看驱动版本号

中间遇到服务器登录不上的问题

 


5.安装cuda

sudo sh ./cuda***.run

检查驱动的版本:NVIDIA 396.18  GCC 5.4.0

检查cuda版本:9.2

配置环境变量:

sudo vi ~/.bashrc

 

进入以后在文档末尾同样加两行:

export PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}}

export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}

加完以后执行:

source  ~/.bashrc

6.安装cuDNN

在官网下载cuDNN后上传到服务器

解压:

执行;

$ sudo cp cuda/include/cudnn.h /usr/local/cuda/include/

$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/

$ sudo chmod +r libcudnn.so.7.0.4

$ sudo ln -sf libcudnn.so.7.0.4 libcudnn.so.7

$ sudo ln -sf libcudnn.so.7 libcudnn.so

$ sudo ldconfig

 

7.安装miniconda

在当前路径下执行:bash 

一路跟着安装向导设置路径:

安装完成后检查版本:

 miniconda安装完成。。。

以后需要什么库直接conda install      安装就好了。。。

安装tf的时候又遇到了错误:

感觉好像是安装源的问题。。。更换conda的默认软件源:

更换软件源

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --set show_channel_urls yes

查看当前使用的软件源:

需要更改的话重新配置.condarc文件即可。。

在ubuntu上下载conda


1)删除整个anaconda目录: 
由于Anaconda的安装文件都包含在一个目录中,所以直接将该目录删除即可。到包含整个anaconda目录的文件夹下,删除整个Anaconda目录:

rm -rf anaconda文件夹名
2)建议——清理下.bashrc中的Anaconda路径:

1.到根目录下,打开终端并输入: 
sudo gedit ~/.bashrc

2.在.bashrc文件末尾用#号注释掉之前添加的路径(或直接删除): 
#export PATH=/home/lq/anaconda3/bin:$PATH 
保存并关闭文件

3.使其立即生效,在终端执行: 
source ~/.bashrc

4.关闭终端,然后再重启一个新的终端,这一步很重要,不然在原终端上还是绑定有anaconda.
 

 

终于配置完成了,中间踩过很多坑,最后的配置为:

Ubuntu16.04 + gcc 5.4.0 +cuda 9.2 +cudnn 7.3 +tensorflow 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值