GPU环境配置指南(Ubuntu16.04+CUDA+CUDNN)

前言

这两天由于种种原因,反复重装系统并配置了深度学习开发环境,无意中便总结了一份环境配置指南出来,所幸再稍加整理,和大家分享出来。
本指南确认无误的环境是:
系统是Ubuntu16.04
GPU是NVIDIA GTX1070
CUDA安装8.0和9.0均可

一、重装系统、配置网络

这个就不必多说了,首先重装好系统
然后配置好网络:配置ip,网关等,确保可以上网即可。

二、安装必备工具:

根据自己的需求,安装一些必要工具

更换国内源
参考教程

更新
$ sudo apt-get update

安装vim
$ sudo apt-get install vim

安装ssh
$ sudo apt-get install openssh-server
运行ssh:
$ sudo service ssh start

安装传输工具rzsz
sudo apt-get install lrzsz

三、安装CUDA

为了安装nvidia驱动,我们首先需要禁用Ubuntu系统自带的驱动nouveau

测试nouveau是否正在运行,有输出则代表nouveau正在加载
$ lsmod | grep nouveau

将nouveau加入黑名单,禁用nouveau
$ sudo vi /etc/modprobe.d/blacklist.conf
加入下面的内容
blacklist nouveau
执行命令更新状态
$ sudo update-initramfs –u

重启,然后查看是否禁用成功
$ reboot
$ lsmod | grep nouveau
如果无任何输出,说明禁用成功(登陆过程中,如果发现字体变大,其实就说明禁用成功了)

禁用成功后准备安装CUDA,首先到官网下载好对应版本的安装文件

现在切换到命令行界面,按下Alt + Ctrl + F1

首先关闭图形界面
$ sudo service lightdm stop

如果安装了驱动,则删除已有的nvidia驱动
$ sudo apt-get remove --purge nvidia*

安装CUDA9.0(CUDA8.0的安装完全一致)
sudo sh cuda_9.0.176_384.81_linux.run
cuda_9.0.176_384.81_linux.run里面自带NVIDIA驱动384.81,按照提示默认安装即可。
不需要像网上的某些教程说的那样CUDA和驱动分开装,不确定的选项就按默认提示选择即可。

可能出现的错误:

  1. The driver installation is unable to locate the kernel source
    原因:内核版本过高
    解决方案1:参考这篇博客https://blog.csdn.net/lewif/article/details/79625151,(我没有试过,需要自行确认是否可行)
    解决方案2:重装系统,我当时就是这样暴力的解决问题的,简单有效。。。
  2. nouveau相关问题
    原因:禁用没有成功,请确认是否完全按照上面的介绍进行

可以通过以下命令确认安装是否成功,以及版本是否正确
显示显卡驱动信息命令
$nvidia-smi
查看NVIDIA驱动的版本
$ cat /proc/driver/nvidia/version
检查CUDA的版本
$ cat /usr/local/cuda/version.txt

一切顺利的话,恢复图形界面
$ sudo service lightdm start

设置环境变量
在/etc/profile结尾添加如下两句
export PATH=/usr/local/cuda-9.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64

查看cuda是否安装成功
$ source /etc/profile
$ nvcc -V

2020/4/19 补充:
今天又装了个Ubuntu 18.04,又踩了些坑
发现18.04还是驱动,CUDA分开装比较简单
驱动也不需要像上面介绍的那样先禁用nouveau,再装新驱动,一行命令就能搞定:
$ sudo ubuntu-drivers autoinstall
详见How to install the NVIDIA drivers on Ubuntu 18.04 Bionic Beaver Linux

四、安装cudnn

下载cudnn,
去官网下载cudnn,或者在网上下载,网上资源也很多
注意下载的cudnn的版本需要与CUDA的版本是对应的

安装cudnn
首先解压出名为cuda的目录,然后执行命令:
$ sudo cp cuda/include/cudnn.h /usr/local/cuda/include
$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
$ sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*

五、安装Anaconda

$ bash Anaconda相应版本.sh

六、安装tensorflow

安装tensorflow很简单,仅仅需要注意安装的版本是否合适!
确认安装的是GPU的版本,如果你有GPU的显卡
确认tensorflow版本与CUDA是否匹配
$ pip install tensorflow-gpu==1.6

注1:CUDA9.0 与 tensorflow1.6 以上是对应的,如果是CUDA8.0,建议装tensorflow1.2

在python中 import tensorflow as tf 测试安装是否成功

注2:如果无法拿到线上机root权限,上述的cudnn安装方法无法完成。
此时,import tensorflow 会报错:ImportError: libcudnn.so.7: cannot open shared object file: No such file or directory
替代解决方案是将所需的libcudnn.so.7拷贝到anaconda的lib目录下,这样tendorflow也能找到对应的文件

七、安装opencv

自动下载安装opencv
$pip install opencv-python

或者手动下载whl文件安装:
$pip install opencv-python相应版本.whl

安装opencv后,import cv2进行测试

如果遇到了报缺少lib的错误,只需找到对应的lib,将文件拷贝到Anaconda路径/lib下即可

寻找lib的方式有两种:
1.如果你的其他机器并不会报错,那这台机器一定有你需要的lib文件,试试看/usr/lib64/或者其他地方有没有你想要的文件
2.去网上下载

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值