Ubuntu16.04 CUDA10 + cuDNN7安装记录

最新推荐文章于 2024-06-20 01:32:07 发布

惯懒高手

最新推荐文章于 2024-06-20 01:32:07 发布

阅读量1.4k

点赞数 1

分类专栏： Ubuntu配置文章标签： NVIDIA CUDA

本文链接：https://blog.csdn.net/weixin_39078049/article/details/81095438

版权

Ubuntu配置专栏收录该内容

5 篇文章 0 订阅

订阅专栏

正好赶上给新系统安装CUDA，就详细的记录一下安装过程，我N次安装后的理解，以及一些问题。

首先，庞贝船长的这篇文章真的写的很详细，但是由于他的链接现在挂了，因此我将他的大部分操作说明拷贝了下来，中间斜体的部分是我补充的。大部分步骤都是按照这篇文章里走的，最后亲测成功在Ubuntu 16.04上安装了CUDA 9.2和10，但在18.04上由于其没有lightdm组件，因此失败。也即该文应该仅适用于14.04与16.04版本。在CUDA安装部分务必读一下加粗部分。

安装之前，建议先安装gedit，对于初学者来说比vim好用很多。下面介绍中的vi命令都可用gedit替代。

$ sudo apt-get install gedit

一、CUDA10安装

0. First of all

0.1 如果之前安装过，但失败了的同学，请敲下...

a)..deb安装失败的....

$ sudo apt-get --purge remove nvidia*

b).run安装失败的....

$ sudo /usr/local/cuda-8.0/bin/uninstall_cuda_8.0.pl
$ sudo /usr/bin/nvidia-uninstall

在 a) 或 b) 后,若仍安装有问题，请敲下

$ sudo apt-get autoremove --purge nvidia-*   #把nvidia驱动清个干干净净
$ sudo reboot

!Note: sudo apt-get remove --purge nvidia-*这条指令并没卸载干净，可能存在驱动的冲突，导致安装不成功

0.2 建议来一本官方安装手册：

NVIDIA CUDA INSTALLATION GUIDE FOR LINUX

1 PRE-INSTALLATION ACTION

1.1 Verify you have a CUDA-Capable GPU

$ lspci | grep -i nvidia

原博主的机器显示：

01:00.0 3D controller: NVIDIA Corporation GF117M [GeForce 610M/710M/810M/820M / GT 620M/625M/630M/720M] (rev a1)

我的机器显示：

86:00.0 VGA compatible controller: NVIDIA Corporation Device 1b06 (rev a1)
86:00.1 Audio device: NVIDIA Corporation Device 10ef (rev a1)

查阅了网上资料后，这也是正常的。我这里使用的是1080Ti，应该是机子没有该型号显卡的相关数据，因此只显示了设备编号。最后安装后是正常的。

到这里验证型号

1.2 Verify you have a Supported Version of Linux

$ uname -m && cat /etc/*release

结果显示：

x86_64
DISTRIB_ID=Ubuntu
DISTRIB_RELEASE=16.04
...

1.3 Verify the System Has GCC Installed

$ gcc --version

结果显示：

gcc (Ubuntu 5.4.0-6ubuntu1~16.04.10) 5.4.0 20160609
...

1.4 Verify the System has the Correct Kernel Headers and Development Packages Installed

查看正在运行的系统内核版本

$ uname -r

结果显示

4.15.0-65-generic

安装对应的kernels header和开发包：

$ sudo apt-get install linux-headers-$(uname -r)

1.5 Download the NVIDIA CUDA Toolkit

到这里下载最新.run版本
或这里选择历史版本

2019年10月7日注：Ubuntu16.04建议选择历史版本中的Cuda10.0版本，pytorch和Tenseflow都能较好的支持。14.04不清楚，建议选择8或9版本。

建议将下载完后的文件放置于你的用户目录下，方便安装。就是命令行中敲下

$ cd

后你所在的目录。

下载完后，用MD5 检验，如果序号不和，得重新下载

$ md5sum cuda_10.0.130_410.48_linux.run

9375304c8dc8d42e7f9a9ae37e80b42b  cuda_10.0.130_410.48_linux.run

2. RUNFILE INSTALLATION

2.1 Disabling Nouveau

$ lsmod | grep nouveau

如果有内容输出，则需禁掉nouveau

$ sudo vi /etc/modprobe.d/blacklist-nouveau.conf

添加如下内容：

blacklist nouveau
options nouveau modeset=0

保存退出(:wq)
执行

$ sudo update-initramfs –u

然后重启电脑，重启后请不要输入登录密码。

$ sudo reboot

重启后第一次进入登录界面时如果发现字体变大变丑，就是成功了。

2.2 Reboot Into Text Mode

重启后，进入登录界面的时候，不要登录进入桌面(否则可能会失败，若不小心进入，请重启电脑)，直接按Ctrl+Alt+F1进入文本模式（命令行界面），登录账户（先输入你的用户名，然后输入密码）。

执行

$ lsmod | grep nouveau

若无内容输出，则禁用nouveau成功。若有，请按Ctrl+Alt+F7回到图形界面，重新检查上述步骤。

关闭图形化界面

$ sudo service lightdm stop

然后在CUDA安装期间，这里庞贝船长的文章没写清楚，只是让OpenGL选no其他都yes。但是首先你应当确定你是否之前已经安装了Nvidia Driver，也就是显卡驱动。执行

$ cat /proc/driver/nvidia/version

结果显示

NVRM version: NVIDIA UNIX x86_64 Kernel Module  361.77  Sun Jul 17 21:18:18 PDT 2016
GCC version:  gcc version 5.4.0 (Ubuntu 4.15.0-65ubuntu1~16.04.10)

则你已经安装了361.77版本的Driver。若没有找到该文件，则未安装。在已有显卡驱动的情况下再次安装显卡驱动，会导致系统崩溃，而这也是绝大多数安装CUDA时系统崩溃的原因。也即：使系统崩溃的不是CUDA，而是在过程中误安装或不匹配的显卡驱动。

如果之前已经安装了某个版本的显卡驱动，解决方法有两个：

1.先卸载之前的驱动（参照0.1节），然后按照庞贝船长文章中的操作进行。（推荐，至少不存在不匹配问题，安装文件中cuda_10.0.130_410.48_linux.run中的410.48即是配套的驱动版本。无需自己额外下载。）

2.在提示是否安装Nvidia Driver时选no，其他照常。（我的同学常用这个方法，但我没测试）

切换到cuda_10.0.130_410.48_linux.run的目录，首先敲下ls查看目录下所有文件，然后执行相应的.run文件（这里应该是没法tab补全的）

$ sudo sh cuda_10.0.130_410.48_linux.run

!Note:安装的时候，要让你先看一堆文字（EULA)，我们直接不停的按空格键到100%，然后敲下accept开始安装

Install NVIDIA Accelerated Graphics Driver for Linux x86_64 327.61？是否安装NVIDIA驱动，按照上面说的情况自己选择。

Do you want to install the OpenGL libraries?是否安装OpenGL，这里选no（崩溃根源，ubuntu通常已安装了一个）。

Do you want to run nvidia-xconfig？是否执行config，网上也没找到干啥用的，但是不安装的话可能导致x-config文件报错，而安装会默认覆盖掉之前的，因此安装即可（不影响使用），yes

Install the CUDA 10.0 Toolkit? 是否安装CUDA，当然装，yes！

Enter Toolkit Location 输入安装路径，直接回车使用Default路径即可。

Do you want to install a symbolic link at /usr/local/cuda 是否创建超链接，这里应该是需要的，因为电脑在使用cuda的时候需要走的链接顺序是cuda->cuda10.0->cudaxxx执行文件。yes

Install the CUDA 10.0 Samples? 是否安装样例，当然，需要样例测试是否安装成功。yes

Enter CUDA Samples Location 输入样例安装位置，还是直接回车使用Default

安装成功后，会显示installed，否则会显示failed。

如果这里显示Driver安装失败，It appears tht an x server is running，则执行

$ sudo apt-get autoremove --purge nvidia-*   #把nvidia驱动清个干干净净
$ sudo reboot

然后从2.2重新开始。

重启图形化界面

$ sudo service lightdm start

登录时能进入桌面，不会一直在重复登录，且屏幕显示正常，则成功已近大半。

!Note:如果出现重复登陆情况，请卸载cuda,然后重装。
原因：是OpenGL与NVIDIA发生了什么什么的。
卸载：由于登陆进入不到图形用户界面（GUI），但我们可以进入到文本用户界面(TUI)(TUI很酷有没有?)，

在登陆界面时，按Ctrl + Alt + f1,进入TUI
执行

$ sudo /usr/local/cuda-10.0/bin/uninstall_cuda_10.0.pl
$ sudo /usr/bin/nvidia-uninstall

然后重启

$ sudo reboot

重新安装.run(安装时请留眼，在提示是否安装OpenGL时，应该选no)

2.3 Device Node Verification

执行

$ ls /dev/nvidia*

可能出现a), b), c)，d)三种结果，请对号入座。前方高能！

a) 若结果显示

/dev/nvidia0  /dev/nvidiactl  /dev/nvidia-uvm

或显示出类似的信息，应该至少有三个（包含一个类似/dev/nvidia-nvm的），则安装成功

b)如果运气有点背，结果是这样的

ls: cannot access /dev/nvidia*: No such file or directory

或是这样的，只出现

/dev/nvidia0  /dev/nvidiactl

中的一个或两个，笔者每次安装都还会出现一个/dev/nvidia-modeset，但没有/dev/nvidia-num

莫方，也许还有希望（我在安装时就是这种情况。。。）按照官方的做法：

把下面的.sh文件随便命个名(我命名为Nka.sh)

#!/bin/bash

/sbin/modprobe nvidia

if [ "$?" -eq 0 ]; then
  # Count the number of NVIDIA controllers found.
  NVDEVS=`lspci | grep -i NVIDIA`
  N3D=`echo "$NVDEVS" | grep "3D controller" | wc -l`
  NVGA=`echo "$NVDEVS" | grep "VGA compatible controller" | wc -l`

  N=`expr $N3D + $NVGA - 1`
  for i in `seq 0 $N`; do
    mknod -m 666 /dev/nvidia$i c 195 $i
  done

  mknod -m 666 /dev/nvidiactl c 195 255

else
  exit 1
fi

/sbin/modprobe nvidia-uvm

if [ "$?" -eq 0 ]; then
  # Find out the major device number used by the nvidia-uvm driver
  D=`grep nvidia-uvm /proc/devices | awk '{print $1}'`

  mknod -m 666 /dev/nvidia-uvm c $D 0
else
  exit 1
fi

然后执行

$ sudo chmod +x Nka.sh
$ sudo ./Nka.sh
$ ls /dev/nvidia*

结果显示

/dev/nvidia0  /dev/nvidiactl  /dev/nvidia-uvm

成功！

1，这种做不太友好，我的意思是，当下次重启电脑时，你使用ls /dev/nvidia*指令时，你是看不到那三个nvidia的文件了。所以你又得手动执行
sudo ./Nka.sh指令了，是不是很烦！其实上面的.sh文件是startup scipt，也就是启动脚本。顾名思义，就是在系统启动时，自动加载的。哈，这么棒的功能就是我们想要的。
2，添加启动脚本的方法大致有两种，我就此介绍一种最傻瓜化的方法。
执行

$ sudo vi /etc/rc.local

如果你是第一次打开这个文件，它应该是空的(除了一行又一行的#注释项外)。这文件的第一行是

#！/bin/sh -e

把-e去掉（这步很重要，否则它不会加载这文本的内容）
然后把Nka.sh的内容除了#!/bin/bash外复制到其中，(before exit 0 )保存退出。
下次重启时，你应该能直接看到/dev目录下的三个nvidia的文件

$ ls /dev/nvidia*
/dev/nvidia0 /dev/nvidiactl /dev/nvidia-uvm

c) 如果人品实在不好（我就遇过几次。。。），结果是这样的

modprobe: ERROR: could not insert 'nvidia_uvm': Operation not permitted

少年，我救不了你了。但是winney大神可以。（在此谢过她了，阿里嘎多！）

当出现这种情况时，可能是驱动打起架来了。
执行

$ sudo apt-get autoremove --purge nvidia-* #把nvidia驱动清个干干净净
$ sudo reboot         #一定记得重启，不然你会后悔的!

然后

$ sudo ./Nka.sh
$ ls /dev/nvidia*

这时，应该可以见到

/dev/nvidia0 /dev/nvidiactl /dev/nvidia-uvm

d) 未知，有点悲伤的告诉你，少年，我只能帮到这了,建议网上另寻方案，或重装.run。Gook Luck!

3 POST-INSTALLATION ACTIONS

3.1 Environment Setup

打开系统配置文件

$ sudo vi /etc/profile

在文件最后添加

export PATH=/usr/local/cuda-10.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64:$LD_LIBRARY_PATH

保存退出

执行

$ source /etc/profile

让文件立即生效

至此cuda 10.0安装完毕。

3.2 Verify the Installation

3.2.1 Verify the Driver Version

敲入

$ cat /proc/driver/nvidia/version

结果显示

NVRM version: NVIDIA UNIX x86_64 Kernel Module  410.48  Sun Jul 17 21:18:18 PDT 2016
GCC version: gcc version 5.4.0 (Ubuntu 4.15.0-65ubuntu1~16.04.10)

或之类的东东

3.2.2 Verify CUDA Toolkit

敲入

$ nvcc -V

结果显示

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2018 NVIDIA Corporation
Built on Wed_May__4_21:01:56_CDT_2018
Cuda compilation tools, release 10.0, V10.0.130

!Note: 如果是这样的：

The program 'nvcc' is currently not installed. You can install it by typing:
sudo apt-get install nvidia-cuda-toolkit

莫方，确认下/etc/profile的配置环境是否正确

即使什么都没改，可能忘了这一步,或是之前执行了，但过了有段时间，且又还没重启电脑。因为source /etc/profile是临时生效，重启电脑才是永久生效

执行

$ source /etc/profile

再执行(应该就有显示了）

$ nvcc -V

此时如果好了，则证明/etc/profile文件无问题。请重启电脑，如此便无需再source了。

3.2.3 Complie sample

cd 进NVIDIA_CUDA-10.0_Samples目录
执行

$  make -j

!Note: 这区间大概需要几分钟到十几分钟，请耐心等待。建议来杯caffe

运行完后，编译结果会放在NVIDIA_CUDA-10.0_Samples目录下的bin目录

3.2.3 Running the Binaries

执行

$ cd bin/x86_64/linux/release

ls看到一堆可执行文件（菱形的图标）

执行

$ ./deviceQuery

结果显示

./deviceQuery Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 1 CUDA Capable device(s)

Device 0: "GeForce GT 720M"
  CUDA Driver Version / Runtime Version          8.0 / 8.0
  CUDA Capability Major/Minor version number:    2.1
  Total amount of global memory:                 1985 MBytes (2081226752 bytes)
  ( 2) Multiprocessors, ( 48) CUDA Cores/MP:     96 CUDA Cores
  GPU Max Clock rate:                            1250 MHz (1.25 GHz)
  Memory Clock rate:                             800 Mhz
  Memory Bus Width:                              64-bit
  L2 Cache Size:                                 131072 bytes
  Maximum Texture Dimension Size (x,y,z)         1D=(65536), 2D=(65536, 65535), 3D=(2048, 2048, 2048)
  Maximum Layered 1D Texture Size, (num) layers  1D=(16384), 2048 layers
  Maximum Layered 2D Texture Size, (num) layers  2D=(16384, 16384), 2048 layers
  Total amount of constant memory:               65536 bytes
  Total amount of shared memory per block:       49152 bytes
  Total number of registers available per block: 32768
  Warp size:                                     32
  Maximum number of threads per multiprocessor:  1536
  Maximum number of threads per block:           1024
  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
  Max dimension size of a grid size    (x,y,z): (65535, 65535, 65535)
  Maximum memory pitch:                          2147483647 bytes
  Texture alignment:                             512 bytes
  Concurrent copy and kernel execution:          Yes with 1 copy engine(s)
  Run time limit on kernels:                     No
  Integrated GPU sharing Host Memory:            No
  Support host page-locked memory mapping:       Yes
  Alignment requirement for Surfaces:            Yes
  Device has ECC support:                        Disabled
  Device supports Unified Addressing (UVA):      Yes
  Device PCI Domain ID / Bus ID / location ID:   0 / 1 / 0
  Compute Mode:
     < Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 8.0, CUDA Runtime Version = 8.0, NumDevs = 1, Device0 = GeForce GT 720M
Result = PASS

或之类的东东，且最后是 Result = PASS,若失败 Result = FAIL

再来一个，执行

$ ./bandwidthTest

结果显示

[CUDA Bandwidth Test] - Starting...
Running on...

 Device 0: GeForce GT 720M
 Quick Mode

 Host to Device Bandwidth, 1 Device(s)
 PINNED Memory Transfers
   Transfer Size (Bytes)    Bandwidth(MB/s)
   33554432         3220.9

 Device to Host Bandwidth, 1 Device(s)
 PINNED Memory Transfers
   Transfer Size (Bytes)    Bandwidth(MB/s)
   33554432         3271.9

 Device to Device Bandwidth, 1 Device(s)
 PINNED Memory Transfers
   Transfer Size (Bytes)    Bandwidth(MB/s)
   33554432         9772.8

Result = PASS

NOTE: The CUDA Samples are not meant for performance measure
ments. Results may vary when GPU Boost is enabled.

少年，恭喜你！你已成功安装cuda-10.0,接下来就可以愉快的玩耍了

这里测试完毕后，就可以删除CUDA的安装文件（建议先存到移动硬盘，你以后会经常用到这个安装文件的^_^）和Samples，省的以后看着心烦。当然Nka.sh也可以删掉：

$ cd
$ rm cuda_10.0.130_410.48_linux.run
$ rm -r NVIDIA_CUDA-10.0_Samples/

二、cuDNN7安装

首先，去cuDNN官网，点击Download cuDNN，此时应该会跳转到一个登录界面，在这里登录/注册一个账号。然后登录，应该能看到下面的界面。

下载符合你的CUDA版本的CUDNN的Deb文件，对于16.04 CUDA10就是上图的三个红色横向标注文件。

然后，命令行进入这三个文件所在的文件夹，参照官网说明中的安装方法依次执行

$ sudo dpkg -i libcudnn7_7.6.3.30-1+cuda10.0_amd64.deb
$ sudo dpkg -i libcudnn7-dev_7.6.3.30-1+cuda10.0_amd64.deb
$ sudo dpkg -i libcudnn7-doc_7.6.3.30-1+cuda10.0_amd64.deb

其中文件的具体版本以你下载的为准。

如此就已经安装完毕了。接下来验证是否安装成功。

将测试文件拷贝到你的目录下并编译运行

$ cp -r /usr/src/cudnn_samples_v7/ $HOME
$ cd  $HOME/cudnn_samples_v7/mnistCUDNN
$ make clean && make -j
$ ./mnistCUDNN

如果这时显示Test Passed，恭喜你已经成功完成了安装！

同样的，可以删除掉cuDNN的测试文件，免得心烦：

$ cd
$ rm -r cudnn_samples_v7/

至此，CUDA与cuDNN全部安装完成！

惯懒高手

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
3
评论
Ubuntu16.04 CUDA10 + cuDNN7安装记录

正好赶上给新系统安装CUDA，就详细的记录一下安装过程，我N次安装后的理解，以及一些问题。首先，庞贝船长的这篇文章真的写的很详细，但是由于他的链接现在挂了，因此我将他的大部分操作说明拷贝了下来，中间斜体的部分是我补充的。大部分步骤都是按照这篇文章里走的，最后亲测成功在Ubuntu 16.04上安装了CUDA 9.2和10，但在18.04上由于其没有lightdm组件，因此失败。也即该文应该仅适...
复制链接

扫一扫

专栏目录