A800 GPU服务器 麒麟V10操作系统安装CUDA

CUDA&Fabric Manager安装文档

摘要:驱动、Fabric Manager、CUDA组件的版本需完全一致(主版本和次版本),特别是nvidia-fabricmanager与驱动版本强一致,需要先查看nvidia-smi确认驱动版本后选择对应的下载安装。安装顺序如下:

1CUDA

系统内uname –a 显示ky10.x86_64

#麒麟v10安装 CUDA,目前NV驱动版本是535,搭配cuda12.2使用

https://developer.download.nvidia.com/compute/cuda/12.2.0/local_installers/cuda-repo-kylin10-12-2-local-12.2.0_535.54.03-1.x86_64.rpmwget https://developer.download.nvidia.com/compute/cuda/12.2.0/local_installers/cuda-repo-kylin10-12-2-local-12.2.0_535.54.03-1.x86_64.rpm

#下载完成后执行

sudo rpm -i cuda-repo-kylin10-12-2-local-12.2.0_535.54.03-1.x86_64.rpm

sudo dnf clean all

sudo dnf -y module install nvidia-driver:latest-dkms

sudo dnf -y install cuda

#全部执行完后显示complete!

#添加环境变量

export PATH=/usr/local/cuda/bin:$PATH

export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

source ~/.bashrc

nvcc –version

输出正常,安装结束。

2Fabric Manager

#查看本机的版本

rpm -qa | grep fabric-manager

#GPU驱动为535.54.03,版本不一致需要卸载

sudo yum remove nvidia-fabric-manager-535.129.03-1.x86_64

bash

# 配置NVIDIA仓库(适配麒麟V10RHEL8路径)

sudo tee /etc/yum.repos.d/cuda.repo <<EOF

[cuda]

name=CUDA Repository

baseurl=https://developer.download.nvidia.cn/compute/cuda/repos/rhel8/x86_64/

enabled=1

gpgcheck=1

gpgkey=https://developer.download.nvidia.cn/compute/cuda/repos/rhel8/x86_64/7fa2af80.pub

EOF

# 清理缓存并安装匹配版本

sudo yum clean all

sudo yum install nvidia-fabric-manager-535.54.03

#安装依赖包

sudo rpm -ivh nvidia-fabric-manager-535.54.03-1.x86_64.rpm

#启动服务并验证

sudo systemctl start nvidia-fabricmanager

sudo systemctl status nvidia-fabricmanager  # 应显示 "active (running)"

附 NVIDIA CUDA仓库Index of /compute/cuda/repos/rhel8/x86_64

对于安装 CUDA 和 cuDNN,您可以按照以下步骤进行操作: 1. 首先,确保您的银河麒麟 v10 系统已经正确安装和配置了 NVIDIA 显卡驱动程序。 2. 您可以从 NVIDIA 官网下载适用于银河麒麟 v10CUDA Toolkit。请注意选择与您的显卡驱动程序版本兼容的 CUDA 版本。 3. 下载完成后,打开终端并进入下载目录。 4. 在终端中,使用以下命令将 CUDA Toolkit 安装包解压缩: ``` tar -xzvf cuda_*.run ``` 5. 解压缩完成后,使用以下命令进入解压缩后的目录: ``` cd cuda-* ``` 6. 运行安装脚本进行 CUDA Toolkit 的安装: ``` sudo ./cuda-installer.sh ``` 7. 按照安装提示进行操作,包括接受许可协议、选择安装路径等。 8. 安装完成后,使用以下命令更新系统路径配置: ``` echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc ``` 9. 接下来,您可以下载适用于银河麒麟 v10 的 cuDNN 库。请确保您选择与您的 CUDA 版本兼容的 cuDNN 版本。 10. 将 cuDNN 压缩包解压缩,并将解压后的文件复制到 CUDA Toolkit 的安装目录中: ``` sudo cp cuda/include/cudnn.h /usr/local/cuda/include sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64 sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn* ``` 11. 安装完成后,您可以通过运行以下命令检查 CUDA 和 cuDNN 是否正确安装: ``` nvcc -V ``` 该命令应该显示您的 CUDA 版本信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值