离线环境下安装NVIDIA驱动、CUDA和Pytorch(HUAWEI Kunpeng 920 + NVIDIA A100 + Kylin V10 SP2)


前言

前段时间做一个国防的项目,使用鲲鹏服务器+英伟达GA100显卡,离线环境安装驱动和pytorch。操作系统使用KylinV10SP2python依赖已经整理好,可以去我的下载资源里去获取。


一、基础环境

1.1、处理器型号

HUAWEI Kunpeng 920 7261K

在这里插入图片描述

1.2、英伟达显卡型号

Tesla A100

GA100 [A100 PCIe 40GB]

在这里插入图片描述

1.3、操作系统

KylinV10SP2

在这里插入图片描述

1.4、软件环境

软件版本下载地址
CUDA Toolkit11.8https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux_sbsa.run
cuda-samples11.8https://github.com/NVIDIA/cuda-samples/archive/refs/tags/v11.8.tar.gz
python3.9.0https://www.python.org/ftp/python/3.9.0/Python-3.9.0.tgz
torch2.0.0https://download.pytorch.org/whl/torch-2.0.0-cp39-cp39-manylinux2014_aarch64.whl#sha256=a83b26bd6ae36fbf5fee3d56973d9816e2002e8a3b7d9205531167c28aaa38a7
torchvision0.15.1https://download.pytorch.org/whl/torchvision-0.15.1-cp39-cp39-manylinux2014_aarch64.whl#sha256=e9b4bb2a15849391df0415d2f76dd36e6528e4253f7b69322b7a0d682535544b
torchaudio2.0.1https://download.pytorch.org/whl/torchaudio-2.0.1-cp39-cp39-manylinux2014_aarch64.whl#sha256=77b953fd7278773269a9477315b8998ae7e5011cc4b2907e0df18162327482f1

二、取消内核自动升级

说明:之前使用昇腾服务器,遇到过内核自动升级后 NPU 驱动无法使用的情况,所以这里取消内核自动升级。

  1. 修改配置文件/etc/yum.conf
    vim /etc/yum.conf
    
  2. [main]的最后添加exclude=kernel*并保存

三、配置本地yum源

  1. 将下载好的iso镜像文件上传到服务器指定目录:/mnt

  2. 创建挂载目录

    mkdir /mnt/iso
    
  3. 挂载镜像

    mount /mnt/Kylin-Server-10-SP2-aarch64-Release-Build09-20210524.iso /mnt/iso/
    
  4. 备份yum源

    cd /etc/yum.repos.d 
    mkdir bak 
    mv *.repo bak
    
  5. 新建本地yum

    vim /etc/yum.repos.d/kylin_aarch64.repo
    

    内容如下:

    [kylin_aarch64.repo]
    name=kylin_aarch64.repo
    baseurl=file:///mnt//iso
    enabled=1
    gpgcheck=0

  6. 使yum源生效

    yum clean all 
    yum makecache 
    
  7. 验证

    yum list
    
  8. 设置开机自动挂载

    方式1:配置/etc/fstab

    vim /etc/fstab
    
    添加以下内容:
    /mnt/Kylin-Server-10-SP2-aarch64-Release-Build09-20210524.iso	/mnt/iso/	xfs	defaults	0	0
    

    方式2:配置/etc/rc.d/rc.local

    vim /etc/rc.d/rc.local
    
    添加挂载命令:
    mount /mnt/Kylin-Server-10-SP2-aarch64-Release-Build09-20210524.iso /mnt/iso/
    

四、安装NVIDIA驱动

本项目使用的驱动版本:NVIDIA-Linux-aarch64-550.54.15.run

  1. 安装依赖

    yum install kernel-devel-$(uname -r) kernel-headers-$(uname -r)
    
  2. 查看显卡型号

    lspci | grep NVIDIA
    
  3. 根据显卡型号下载驱动,本项目使用的驱动跟图片中一致

    下载地址:https://www.nvidia.cn/Download/index.aspx?lang=zh-cn

    在这里插入图片描述

  4. 禁用nouveau,重启服务器
    安装Nvidia显卡的官方驱动和系统自带的nouveau驱动冲突,所以需要禁用nouveau。

    lsmod | grep nouveau
    

    如果有输出则说明nouveau正在被加载,执行下面代码,禁用nouveau,如果没有输出,则不执行。

    1、创建文件
    vim /etc/modprobe.d/blacklist-nouveau.conf
    
    添加如下内容:
    blacklist nouveau
    options nouveau modset=0
    
    2、更新
    dracut --force
    
    3、重启服务器
    reboot
    
    4、查看是否禁用成功,若没有输出,则表示禁用成功
    lsmod | grep nouveau
    
  5. 安装NVIDIA驱动

    cd /opt
    sh NVIDIA-Linux-aarch64-550.54.15.run –no-opengl-files
    

    第一个页面:选择继续

    第二个页面

    在这里插入图片描述

    第三个页面

    在这里插入图片描述

    第四个页面

    在这里插入图片描述

  6. 查看是否安装成功,查看驱动版本

    nvidia-smi
    

    输出驱动版本,CUDA驱动版本,显卡型号。

    在这里插入图片描述

五、安装CUDA

  1. 下载CUDA

    这里需要注意CUDA Toolkit的版本要小于上面CUDA驱动的版本。

    CUDA Toolkit下载地址:https://developer.nvidia.com/cuda-toolkit-archive

    本文使用的版本是cuda_11.8.0_520.61.05_linux_sbsa.run

    这里不用纠结选择那个操作系统,只要选择arm64-sbsaNativerunfile(local)即可,其他的不管选什么下载的地址都是一个。

在这里插入图片描述

  1. 安装CUDA

    cd /opt
    sh cuda_11.8.0_520.61.05_linux_sbsa.run
    

    第一个页面:输入accept

    在这里插入图片描述

    第二个页面:取消Driver的安装,因为前面已经安装了驱动

    在这里插入图片描述

    第三个页面:显示下面的输出,表示安装成功

    在这里插入图片描述

  2. 配置环境变量

    vim /etc/profile
    
    添加如下内容:
    export CUDA_HOME=/usr/local/cuda
    export PATH=$CUDA_HOME/bin:$PATH
    export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH
    
    #使生效
    source /etc/profile
    
  3. 验证是否安装成功

    nvcc -V
    

    在这里插入图片描述

六、编译安装cuda-samples

说明:安装cuda-samples,是因为从CUDA Toolkit 11.6之后就不再将Samples集成到里面了,我们还需要使用cuda-samples进行测试,所以编译安装cuda-samples。

  1. 安装依赖

    yum install gcc-c++ libstdc++-devel cpp gcc libgomp libstdc++
    
  2. 下载cuda-samples,本文使用版本11.8

    下载地址:https://github.com/NVIDIA/cuda-samples/

  3. 编译deviceQuery案例

    cd /opt/cuda-samples-11.8/Samples/1_Utilities/deviceQuery	
    make
    
  4. 执行deviceQuery案例

    ./deviceQuery
    

    CUDA核心数:6912

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

七、安装Python

  1. 安装依赖

    yum install openssl-devel openssl openssl-libs e2fsprogs-devel keyutils-libs-devel krb5-devel libverto-devel
    
  2. 下载Python3.9

    下载地址:https://www.python.org/ftp/python/3.9.0/Python-3.9.0.tgz

  3. 编译、安装

    tar -zxvf Python-3.9.0.tgz
    cd /opt/Python-3.9.0
    ./configure --prefix=/usr/local/python39
    make -j
    make install -j
    
  4. 创建pythonpip的软链接,如果存在旧的软连接,删除即可

    rm /usr/bin/python
    rm /usr/bin/pip
    ln -s /usr/local/python39/bin/python3.9 /usr/bin/python
    ln -s /usr/local/python39/bin/pip3.9 /usr/bin/pip
    
  5. 验证是否安装成功

    python --version
    pip --version
    

八、安装Pytorch

  1. 下载Pytorch

    本文使用的版本为:torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1

    下载地址:https://pytorch.org/get-started/previous-versions/

  2. 安装Pytorch

    说明:当前目录下已经存在 torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1及其依赖包。

    在这里插入图片描述

    pip install --no-index --find-links=./ torch-2.0.0 torchvision-0.15.1 torchaudio-2.0.1
    

总结

本文主要内容包括:在鲲鹏服务器离线环境上安装NVIDIA A100显卡驱动、安装CUDA、安装cuda-samples并进行简单测试、安装Python、安装Pytorch。

  • 21
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
在Ubuntu上安装显卡驱动、CuDNN、CUDAPyTorch可以按照以下步骤进行: 1. 安装显卡驱动:可以通过以下几种方式安装显卡驱动: - 通过"Software & Updates"工具在“Additional Drivers”选项卡中选择一个适用于您的显卡型号的驱动程序,并点击“Apply Changes”进行安装。 - 通过命令行使用`ubuntu-drivers devices`命令查看可用的驱动,然后使用`sudo ubuntu-drivers autoinstall`命令自动安装推荐的驱动。 2. 安装CuDNN:CuDNN是NVIDIA加速库,可提供用于深度学习的GPU加速功能。可以按照以下步骤安装CuDNN: - 前往NVIDIA官方网站,下载适用于您的CUDA版本的CuDNN压缩文件(通常需要注册NVIDIA开发者账号)。 - 将CuDNN压缩文件解压缩到一个合适的位置,例如`~/cuda`文件夹。 - 打开终端,使用`cd`命令进入CuDNN解压缩文件的路径,并执行以下命令安装CuDNN: ``` sudo cp cuda/include/cudnn*.h /usr/local/cuda/include/ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn* ``` 3. 安装CUDACUDA是用于在NVIDIA GPU上进行并行计算的平行计算平台和API。可以按照以下步骤安装CUDA: - 前往NVIDIA官方网站,选择适用于您的显卡和操作系统的CUDA版本,并下载对应的运行文件(通常需要注册NVIDIA开发者账号)。 - 打开终端,使用`cd`命令进入CUDA运行文件所在的目录,并执行以下命令安装CUDA: ``` sudo sh cuda*.run ``` - 执行安装向导中的步骤,根据提示进行安装配置,包括选择安装路径和设置环境变量。 - 安装完成后,可以通过执行`nvcc --version`命令验证CUDA安装情况。 4. 安装PyTorchPyTorch是一个用于构建深度学习模型的开源Python库。可以按照以下方式安装PyTorch: - 打开终端,执行以下命令安装PyTorch: ``` pip install torch torchvision ``` - 在安装过程中,可能需要下载和编译一些依赖项。请耐心等待安装完成。 安装完成后,您可以在Ubuntu上使用显卡驱动、CuDNN、CUDAPyTorch进行深度学习任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

于齐龙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值