深度学习环境配置

最新推荐文章于 2024-03-11 15:25:56 发布

Cetlicsss

最新推荐文章于 2024-03-11 15:25:56 发布

阅读量5.1k

点赞数 3

本文链接：https://blog.csdn.net/qq_40220833/article/details/90548174

版权

目前服务器内需要安装深度学习环境，以下是环境配置的一些步骤。一定是明确需要安装的配置。

1.NVIDIA驱动安装

先进行Nvidia驱动的安装。我是选择.run文件进行安装，需要手动下载。

1.1查找对应的驱动

上图是我们所需要的版本，TeslaV100,对应的linux64位，CUDA的版本是10.0（选择10.0的原因是因为主板上对CUDA9.0的驱动不兼容）

下载完成后传送至服务器即可。

我们使用Xshell进行远程控制服务器，界面如下

通过设置如下即可链接

1.2 安装相应的软件

在使用.run文件进行安装时，需要配置GCC和make

否则会出现如下两个错误。

apt install gcc                 # 安装
apt install make

1.3 安装步骤

卸载原先驱动:

sudo apt-get remove --purge nvidia*

禁用nouveau:

sudo vi /etc/modprobe.d/blacklist.conf

在最后添加，保存即可

blacklist nouveau

之后，执行命令：

sudo update-initramfs -u

但是我这个命令执行后是有问题的，具体有没有用就不知道了。

重启后运行，如果没有输出，则成功(具体是否需要重启可以看看)

lsmod | grep nouveau

安装驱动

给驱动文件赋予权限，并安装

sudo chmod a+x NVIDIA-Linux-x86_64-410.104.run  #赋予权限
sudo ./NVIDIA-Linux-x86_64-375.20.run           #安装

重启后输入命令

root@ai03:~# nvidia-smi
Tue Mar 12 00:40:32 2019       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.104      Driver Version: 410.104      CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  ***** ****-PCIE...  On   | 00000000:3D:00.0 Off |                    0 |
| N/A   30C    P0    27W / 250W |      0MiB / *****MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  ***** ****-PCIE...  On   | 00000000:42:00.0 Off |                    0 |
| N/A   28C    P0    26W / 250W |      0MiB / *****MiB |      0%      Default ||
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

出现安装信息即可

2.CUDA，Cudnn安装

在驱动安装完成之后可以进行CUDA的安装。

2.1 CUDA下载

根据驱动版本进行选择，

以前下载会出现下载到一半动不了的情况，目前可以直接将链接复制至下载器进行下载

2.2 安装CUDA

由于服务器版本的linux系统没有太多的依赖项的问题，同时也没有个人版中的循环登录的情况，安装还蛮顺畅的。最重要的是注意gcc编译器即内核这两个版本的问题。

禁用Nouveau

首先还是要像装驱动一样限制Nouveau

在之前的 /etc/modprobe.d/blacklist.conf文件中最后面加入保存即可。

options nouveau modeset=0

再输入下面，即可

sudo update-initramfs -u

安装CUDA

直接sh运行文件即可安装

sudo sh cuda_10.0.130_410.48_linux.run

会出现一个很长的说明文档，一直点到结束就好。然后除了不安装CUDA samples外其他都选择yes，最后等待安装完成即可

设置CUDA路径

先使用编辑器编辑.bashrc文件，

vi ~/.bashrc # 编辑

最后中添加下面的代码

export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64:$LD_LIBRARY_PATH
export CUDA_HOME=/usr/local/cuda-10.0
export PATH=/usr/local/cuda-10.0/bin:$PATH

之后使用source命令即可。

source ~/.bashrc

输入nvcc -V，输出当前信息

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2018 NVIDIA Corporation
Built on Sat_Aug_25_21:08:01_CDT_2018
Cuda compilation tools, release 10.0, V10.0.130

2.3 安装cudnn

将cudnn文件移动到/usr/local下，cd到CUDA安装目录下，然后进行解压命令，完成之后就可以了

mv cudnn-10.0-linux-x64-v7.4.2.24.tgz /usr/local
cd /usr/local
sudo tar -xzvf cudnn-10.0-linux-x64-v7.4.2.24.tgz

2.4 查验指令

cat /proc/driver/nvidia/version     #查看Nvidia驱动版本
nvcc -V                             #查看CUDA版本
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2 #查看Cudnn版本

3.Nvidia驱动，CUDA卸载

3.1 Nvidia驱动卸载

直接使用当时驱动的安装包进行卸载

sh ./NVIDIA-Linux-x86_64-384.183.run --uninstall

还有另一种方式如下，但是我试过没有效果，nvidia-smi后还是有输出的。

sudo apt-get purge nvidia*

3.2 CUDA卸载

明确cuda的安装路径，我的是/usr/local/cuda-10.0。之后用命令卸载

sudo /usr/local/cuda-10.0/bin/unistall_cuda-10.0.pl

等待完成后，手动删除残余目录/usr/local/cuda-10.0

4 GPU带宽检测

目前安装好GPU后可以使用带宽检测测试安装性能

cd到CUDA的带宽测试目录下

cd /usr/local/cuda/samples/1_Utilities/bandwidthTest/
make
./bandwidthTest

在测试前出现一个Makefile:xxx: recipe for target xxx failed的错误

后来发现问题在g++: No such file or directory

直接安装G++即可完事

apt install g++

Cetlicsss

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
深度学习环境配置

目前服务器内需要安装深度学习环境，以下是环境配置的一些步骤。一定是明确需要安装的配置。1.NVIDIA驱动安装先进行Nvidia驱动的安装。我是选择.run文件进行安装，需要手动下载。1.1查找对应的驱动上图是我们所需要的版本，TeslaV100,对应的linux64位，CUDA的版本是10.0（选择10.0的原因是因为主板上对CUDA9.0的驱动不兼容）下载完成后传送...
复制链接

扫一扫