曙光DCU操作指南

本文详细描述了在使用DCU(DeepComputingUnit)时的准备工作,包括下载和安装必要的软件(如conda、PyTorch和torchvision),设置ROCm编译器,激活虚拟环境,以及如何在计算节点上连接、激活环境并检查DCU状态。还提供了后台运行模型的小技巧和脚本执行的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用DCU的开始阶段需要的准备工作

1.去官网下载conda或者minconda,然后通过快传客户端(曙光计算官网旁下载对应计算服务的应用端和快传客户端,若不下载可能会有文件上传数量地限制)传到服务器上,之后执行source对应的下载的文件安装。
2.之后正常操作。创建一个python版本为3.8的虚拟环境(识别不到conda的话要去对应的安装conda的文件找到对应的conda,激活使用
在这里插入图片描述执行source 对应路径下的sh文件,我这个文件执行的命令就是
source /public/home/ac83k0ofiu/anaconda3/etc/profile.d/conda.sh
之后就可以正常使用conda了,下面命令是创建一个叫xiaozhi的python版本为3.8的虚拟环境
conda create -n xiaozhi python=3.8
3.第三步(注意,因为他是amd架构的GPU(DCU),所以不支持官网版本的pytorch和torchvision,要安装他适配的pytorch和torchvision)
路径为
/public/software/apps/DeepLearning/whl/dtk-22.10/pytorch/

在这里插入图片描述在这里插入图片描述

之后下载安装对应python版本的pytorch和torchvision,因为我之前创建的python版本为3.8,所以要选择cp38的torch和torchvision,选一对即可

在这里插入图片描述

准备工作完成后
注意直接运行程序是不行的,识别不了torch,需要先连接到计算中心**
1.查看所在队列(注意首字母小写)
命令:whichpartition
2.申请并登录计算节点,进行测试
salloc -p 队列名 -N 1 --gres=dcu:申请DCU的数量
N表示计算节点数, n表示核心数,–gres=dcu:申请DCU的数量
命令例子:
salloc -p hebhdnormal -N 1 -n 32 --gres=dcu:4
在这里插入图片描述

3.登录计算节点(ssh 节点)
ssh a01r3n02
在这里插入图片描述

4.切换到ROCm编译器
进入计算节点使用的时候 需要执行 下面两条命令 来适配上面的pytorch包
module rm compiler/rocm/3.3
module load compiler/rocm/dtk-22.10
在这里插入图片描述

5.激活conda环境(登录到计算节点后会退出之前的环境,所以需要重新激活环境)
source /public/home/ac83k0ofiu/anaconda3/etc/profile.d/conda.sh
conda activate xiaozhi
在这里插入图片描述

进入环境,查看DCU能不能用,依次执行以下命令(可选)
python

import torch
torch.cuda.is_available()
torch.version

查看DCU状态的命令(可选)
hy-smi

6.之后可以正常跑模型
小技巧:挂在服务器后台执行,并将运行数据写在train.log中
nohup python tools/train.py >train.log 2>&1 &(这个命令是你的连接断了程序也不会断,而是在服务器后台跑着,运行结果在对应的train.log文件夹中(和你直接执行代码命令行窗口的输出是一致的))
除了nohup命令你还可以写一个脚本文件,然后执行脚本文件也可以(大致如下所示,这个的话你就不用申请计算节点啥的,脚本里给你写了,直接执行就行,也就是把我们之前的操作都写在里面了)
在这里插入图片描述切到对应的脚本目录,使用sbatch 脚本名执行就行(注意这里面的执行程序命令为相对路径,要根据脚本与执行程序所在相对位置进行调整)
例子:sbatch train.sh

### 如何在麒麟操作系统上安装和配置ROCm #### 3.1 ROCm简介 Radeon™ Open Compute platform (ROCm) 是 AMD 推出的开源高性能计算平台,旨在为需要运行复杂计算任务的应用程序提供支持[^1]。 #### 3.2 准备工作 确保服务器环境满足以下条件: - **硬件**: 中科曙光国产芯片服务器 X745-H30, Hygon C86 7285 32-core Processor 和 Hygon DCU Z100 GPU。 - **操作系统**: 使用的是麒麟 V10 SP2 版本的操作系统[^2]。 #### 3.3 安装步骤 ##### 3.3.1 更新系统包 为了确保系统的稳定性和兼容性,在开始之前应该更新现有的软件包到最新版本: ```bash sudo apt update && sudo apt upgrade -y ``` ##### 3.3.2 添加ROCm仓库 由于麒麟操作系统基于Linux内核开发,可以借鉴Ubuntu等其他Linux发行版的方法来设置ROCm源。对于特定于麒麟OS的情况,则需访问ROCm官方GitHub页面获取最新的指导文档,并根据其指示操作以适应当前使用的具体版本。 ##### 3.3.3 安装依赖项 某些必要的库文件可能不在默认安装范围内,因此要先安装这些前置组件: ```bash sudo apt install -y rocm-dkms ``` ##### 3.3.4 安装ROCm驱动及相关工具链 通过APT命令行工具完成主要部分的部署过程: ```bash sudo apt-get install -y rocblas miopen-hip rocrand rccl ``` 请注意,具体的包名可能会随着时间和版本的不同而有所变化;务必参照官方网站上的最新指南进行调整。 ##### 3.3.5 验证安装成功与否 最后一步是验证是否正确设置了ROCm环境变量以及确认设备能够被识别出来: ```bash echo $HIP_PATH # 应指向正确的路径 rocminfo # 显示有关GPU的信息 ``` 如果一切正常的话,上述命令应当返回预期的结果,表明ROCm已经成功集成到了该平台上。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值