前言
在Linux环境下配置cuda和cudann用于模型训练变得越来越重要,今天我们小组内需要配置一台用于模型训练的Linux环境。下面是具体操作。
一、cuda12.1下载与配置
1.在下载cuda12.1之前需要查看Linux系统下是否有支持NVIDA的独立显卡(没有请下载安装)
2.使用命令进行下载安装cuda12.1
3.使用cd命令进入到下载的目录下。然后使用下列命令进行安装:
需要等待一会。
4.选择Continue回车
5.输入accept进行回车
6.选择Install回车
7.出现以下错误需要调整
8.由于我已经安装过Driver CUAD了,修改错误如下所示:
9.最后稍等10分钟左右出现一下界面,说明安装马上成功了。
10.使用一下命令进入到环境配置
11.使用Esc+i进行编辑Vim文件输入下面内容。最后使用:qw进行保存并退出。
12.更新环境
13.验证cuda是否可用,显示一下信息表示cuda成功安装。
二、cudnn8.9.7下载安装
1.我是使用Windows系统进入到cudnn官网登录账号进行下载对应的版本的,然后使用远程连接方式将下载好的cudnn版本上传到Linux系统文件当中。(需要创建账号登录下载)cudnn8.9.7版本下载地址:https://developer.nvidia.com/rdp/cudnn-archive
进入官网选择红色箭头的安装包:
Windows系统下载完成之后,使用对应的远程工具将压缩包上传到linux系统对应的文件夹下。这里我使用的是:TeamViewer 下载连接为:https://www.teamviewer.com/apac/download/windows/
2.进入到Linux系统下赋值的cudnn8.9.7下载的安装目录,并打开终端,输入以下命令进行解压文件:
tar -xvf cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz
3.复制头文件到cuda的安装目录。我的cuda安装目录是/usr/local/cuda-12.1/
sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda-12.1/include
4.复制库文件到cuda安装目录下
sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda-12.1/lib64
5.使用以下命令更改文件权限
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
6.检查已安装的cuDNN库版本
cat /usr/local/cuda-12.1/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
7.最后成功安装结果
三.TensorRT8.6.1下载安装
1.首先我实在windows下面下载的TensorRT8.6.1安装包
进入官网:https://developer.nvidia.com/tensorrt/download
2.进入之后按照下面操作点击下载
3.使用TeamViewer进行传输到Linux系统上
4.按照下面命令进行安装NVIDIA TensorRT
# 安装本地 TensorRT 仓库
sudo dpkg -i nv-tensorrt-local-repo-ubuntu2204-8.6.1-cuda-12.0_1.0-1_amd64.deb
# 复制 GPG 密钥
sudo cp /var/nv-tensorrt-local-repo-ubuntu2204-8.6.1-cuda-12.0/*-keyring.gpg /usr/share/keyrings/
# 更新包列表
sudo apt-get update
# 安装 TensorRT
sudo apt-get install tensorrt
5.测试是否成功(好像没成功)
6.出错参考文章https://blog.csdn.net/W25679/article/details/109521533
没有修改成功。
总结
cuda,cudnn和anaconda3安装成功,但是tensorRT安装失败,需要进一步找出错误原因并重新进行安装。