1 创建用户
1 先登录一个有root权限的用户
2 新建账户并在home目录创建同名文件夹
sudo adduser name
3 设置密码
sudo passwd name
4 重新登录刚才自己创建的用户
一些其他的常用命令(sudo命令要有root权限才能使用)
sudo userdel -r name
删除账户并删除home目录下的同名文件夹
sudo -i
切换root用户
赋予用户root权限()
sudo vim /etc/sudoers
在其中添加name ALL=(ALL) ALL
su name
切换到name用户
cat /etc/passwd |cut -f 1 -d:
查看所有用户
watch -n | nvidia-smi
查看GPU占用情况
2 安装anaconda
下载地址:https://repo.anaconda.com/archive, 自己选择所需版本, 在服务器执行以下命令(版本不同稍有区别)
wget https://repo.anaconda.com/archive/Anaconda3-2021.11-Linux-x86_64.sh
chmod +x Anaconda3-2021.11-Linux-x86_64.sh
./Anaconda3-2021.11-Linux-x86_64.sh
没有自动添加路径的话需要手动添加,路径文件是用户目录下的 .bashrc 文件,通过 vim 打开文件,然后在末位添加路径
vim .bashrc
在其末尾添加以下代码(我新建的用户名为Dell-qi)
export PATH="/home/Dell-qi/anaconda3/bin:$PATH
:wq 保存退出后执行
source .bashrc
3 配置tensorflow
先创建一个环境(我创建的环境名为tf_gpu, python版本为3.7), 然后激活该环境
conda create -n tf_gpu python=3.7
conda activate tf_gpu
一些其他的常用命令
conda remove -n tf_gpu --all 删除环境
conda env list 查看已有环境
conda deactivate 退出环境
配置gpu环境
conda install tensorflow-gpu
以上 一行代码可以解决所有版本对应问题
会自动下载版本对应的所有包(以最新版的tensorflow_gpu为标准),包括tensorflow cudatoolkit cudnn以及其他相应包
anaconda 的 cudatoolkit 不包含完整安装cuda的全部文件,只是包含了用于 tensorflow,pytorch,xgboost 和 Cupy 等所需要的共享库文件。一般情况下会直接调用anaconda的cudatoolkit工具包
anaconda 安装的 cudatoolkit cudnn 都在 anaconda3/pkgs 中,并且不支持 nvcc
执行以下代码, 返回GPU信息即表示配置成功
python
import tensorflow as tf
tf.config.list_physical_devices('GPU')
返回信息如下所示
==============================================================================
4 手动配置cuda和cudnn
如果通过以上代码配置成功后,服务器用户级的深度学习环境就OK了,下面的就不需要看了
如果需要用到相应版本可以看一下,或者需要手动配置cuda可以看看
tensorflow_gpu , cuda , cudnn 版本对应关系如下, 具体可查看网址:https://tensorflow.google.cn/install/source
4.1 安装cuda
通过以下命令查看内核和内核版本, 可通过 https://access.redhat.com/articles/3078 查看对应信息
cat /proc/version
我这里的版本信息为显示的版本为:
linux version : 4.18
red hat : 8.3
新建目录
mkdir /home/Dell-qi/usr/local/cuda-10.1
mkdir /home/Dell-qi/usr/local/cuda-10.1/mylib
下载CUDA, 下载地址为: https://developer.nvidia.com/cuda-downloads
点击红色区域, 选择所需版本, 我这里选择10.1版本,
执行以下代码
wget https://developer.download.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_10.1.243_418.87.00_linux.run
chmod 755 cuda_10.1.243_418.87.00_linux.run
sh cuda_10.1.243_418.87.00_linux.run
accept
只选择安装CUDA Toolkit
进入Options
进入Toolkit Options选择 Change Toolkit Install Path
输入自定义目录/home/Dell-qi/usr/local/cuda-10.1/
(用户名不同稍有不同)
返回 Options 选择 Library install path ,输入自定义目录/home/Dell-qi/usr/local/cuda-10.1/mylib
然后返回主界面Install(安装可能需要等一会)
安装成功
安装成功后将cuda添加到路径
用户目录下执行vim .bashrc
在末尾添加
:wq 保存退出后执行
source .bashrc
查看cuda版本,正常显示表示安装成功
nvcc -V
4.2 配置cudnn
下载地址为: https://developer.nvidia.com/rdp/cudnn-archive
下载对应的版本, 我这里选择
cudnn-10.1-linux-x64-v7.6.5.32.tgz ( 7.6.5 November 5th , 2019,for CUDA 10.1 )
下载完后解压
tar -zxvf cudnn-10.1-linux-x64-v7.6.5.32.tgz
将解压的文件复制到cuda-10.1
cp include/cudnn.h /home/Dell-qi/usr/local/cuda-10.1/include
cp lib64/libcudnn* /home/Dell-qi/usr/local/cuda-10.1/lib64
修改文件访问权限
chmod 755 /home/Dell-qi/usr/local/cuda-10.1/include/cudnn.h
chmod 755 /home/Dell-qi/usr/local/cuda-10.1/lib64/libcudnn*
新建环境并激活
conda create -n my_tfgpu python=3.7
conda activate my_tfgpu
安装tensorflow
pip install tensorflow_gpu==2.3
执行以下代码,返回如下信息即配置成功
python
import tensorflow as tf
tf.config.list_physical_devices('GPU')