linux服务器配置用户级tensorflow_gpu环境

海雅信子

已于 2024-01-08 20:56:06 修改

阅读量1.3k

点赞数 4

分类专栏： Python linux 文章标签： linux 服务器 tensorflow

于 2022-10-20 15:39:09 首次发布

本文链接：https://blog.csdn.net/adxmuying/article/details/127141753

版权

Python 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

linux

8 篇文章 0 订阅

订阅专栏

1 创建用户

1 先登录一个有root权限的用户
2 新建账户并在home目录创建同名文件夹
sudo adduser name
3 设置密码
sudo passwd name
4 重新登录刚才自己创建的用户

一些其他的常用命令(sudo命令要有root权限才能使用)

sudo userdel -r name 删除账户并删除home目录下的同名文件夹
sudo -i 切换root用户

赋予用户root权限()
sudo vim /etc/sudoers 在其中添加 name ALL=(ALL) ALL

su name 切换到name用户
cat /etc/passwd |cut -f 1 -d: 查看所有用户
watch -n | nvidia-smi 查看GPU占用情况

2 安装anaconda

下载地址：https://repo.anaconda.com/archive, 自己选择所需版本, 在服务器执行以下命令(版本不同稍有区别)
wget https://repo.anaconda.com/archive/Anaconda3-2021.11-Linux-x86_64.sh
chmod +x Anaconda3-2021.11-Linux-x86_64.sh
./Anaconda3-2021.11-Linux-x86_64.sh

没有自动添加路径的话需要手动添加,路径文件是用户目录下的 .bashrc 文件,通过 vim 打开文件,然后在末位添加路径
vim .bashrc
在其末尾添加以下代码(我新建的用户名为Dell-qi)

export PATH="/home/Dell-qi/anaconda3/bin:$PATH

:wq 保存退出后执行
source .bashrc

3 配置tensorflow

先创建一个环境(我创建的环境名为tf_gpu, python版本为3.7), 然后激活该环境
conda create -n tf_gpu python=3.7
conda activate tf_gpu

一些其他的常用命令

conda remove -n tf_gpu --all	删除环境
conda env list					查看已有环境
conda deactivate				退出环境

配置gpu环境
conda install tensorflow-gpu

以上一行代码可以解决所有版本对应问题

会自动下载版本对应的所有包（以最新版的tensorflow_gpu为标准），包括tensorflow cudatoolkit cudnn以及其他相应包

anaconda 的 cudatoolkit 不包含完整安装cuda的全部文件，只是包含了用于 tensorflow，pytorch，xgboost 和 Cupy 等所需要的共享库文件。一般情况下会直接调用anaconda的cudatoolkit工具包

anaconda 安装的 cudatoolkit cudnn 都在 anaconda3/pkgs 中，并且不支持 nvcc

执行以下代码, 返回GPU信息即表示配置成功
python
import tensorflow as tf
tf.config.list_physical_devices('GPU')
返回信息如下所示

==============================================================================

4 手动配置cuda和cudnn

如果通过以上代码配置成功后，服务器用户级的深度学习环境就OK了，下面的就不需要看了
如果需要用到相应版本可以看一下，或者需要手动配置cuda可以看看

tensorflow_gpu , cuda , cudnn 版本对应关系如下, 具体可查看网址：https://tensorflow.google.cn/install/source

4.1 安装cuda

通过以下命令查看内核和内核版本, 可通过 https://access.redhat.com/articles/3078 查看对应信息
cat /proc/version
我这里的版本信息为显示的版本为：
linux version : 4.18
red hat : 8.3

新建目录
mkdir /home/Dell-qi/usr/local/cuda-10.1
mkdir /home/Dell-qi/usr/local/cuda-10.1/mylib

下载CUDA, 下载地址为: https://developer.nvidia.com/cuda-downloads

点击红色区域, 选择所需版本, 我这里选择10.1版本,

执行以下代码

wget https://developer.download.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_10.1.243_418.87.00_linux.run
chmod 755 cuda_10.1.243_418.87.00_linux.run
sh cuda_10.1.243_418.87.00_linux.run

accept
只选择安装CUDA Toolkit

进入Options
进入Toolkit Options选择 Change Toolkit Install Path

输入自定义目录 /home/Dell-qi/usr/local/cuda-10.1/（用户名不同稍有不同）
返回 Options 选择 Library install path ，输入自定义目录 /home/Dell-qi/usr/local/cuda-10.1/mylib
然后返回主界面Install（安装可能需要等一会）

安装成功

安装成功后将cuda添加到路径
用户目录下执行vim .bashrc
在末尾添加

:wq 保存退出后执行
source .bashrc

查看cuda版本，正常显示表示安装成功
nvcc -V

4.2 配置cudnn

下载地址为: https://developer.nvidia.com/rdp/cudnn-archive
下载对应的版本, 我这里选择
cudnn-10.1-linux-x64-v7.6.5.32.tgz ( 7.6.5 November 5th , 2019,for CUDA 10.1 )

下载完后解压
tar -zxvf cudnn-10.1-linux-x64-v7.6.5.32.tgz

将解压的文件复制到cuda-10.1
cp include/cudnn.h /home/Dell-qi/usr/local/cuda-10.1/include
cp lib64/libcudnn* /home/Dell-qi/usr/local/cuda-10.1/lib64
修改文件访问权限
chmod 755 /home/Dell-qi/usr/local/cuda-10.1/include/cudnn.h
chmod 755 /home/Dell-qi/usr/local/cuda-10.1/lib64/libcudnn*