曙光超算平台操作之深度学习

本文提供了一份详细的国产DCU及英伟达GPU的操作手册,包括环境安装与测试、作业提交流程、作业状态查看及取消等操作步骤。此外,还对比了两者在计算任务上的表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、 DCU操作:

1. 安装环境并测试

1.1安装pytorch

需要安装他们提供的pytorch,支持他们的DCU的:

  • 激活自己的环境:source acctivate 环境名
  • 安装torch:
    pip install /public/software/apps/DeepLearning/whl/dtk-22.04.2/torch-1.10.0a0_gitc7f69d6_dtk22.04.2-cp37-cp37m-manylinux2014_x86_64.whl
    
  • 安装torchvision:
    pip install /public/software/apps/DeepLearning/whl/dtk-22.04.2/torchvision-0.10.0a0_dtk22.04.2_e17f5ea-cp37-cp37m-manylinux2014_x86_64.whl
    
1.2查看是否能够调用到DCU
  • 查看队列:whichpartition

  • 申请节点:salloc -p 队列名 -N 1 --gres=dcu:2

  • 根据申请到的节点登录节点:ssh 节点

  • 切换rocm编译器版本(加载dtk22.04驱动):module switch compiler/dtk/22.04.1

  • 添加环境变量

    • 编辑存放环境变量的文本:vi ~/pytorch_env.sh
    • 添加如下内容:
      export
      LD_LIBRARY_PATH=/public/software/apps/DeepLearning/PyTorch_Lib/lib:/public/software/apps/DeepLearning/PyTorch_Lib/lmdb-0.9.24-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/opencv-2.4.13.6-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/openblas-0.3.7-build/lib:$LD_LIBRARY_PATH
      
    • 保存 ESC + :+ w+ q
    • 激活环境变量:source ~/pytorch_env.sh
  • 激活环境:source acctivate 环境名

  • 执行如下语句验证:

     python
    
    import torch
    torch.cuda.is_available()
    torch.__version__
    
  • 登出节点 exit

2. 作业操作

第一步的一系列的操作是在验证你的云服务器是否好用,接下来就不用在像上面一样操作,直接使用提交作业的模板,所有的指令放在模板中,直接一行指令,运行模板,就能够做所有的事情。

2.1 提交作业
  • 首先,自己建立.sh作业提交脚本
  • 作业脚本模板:
    • 作业脚本中要加载驱动,但是并没有配置环境变量

    • 编辑文件:vi 文件名 (例如 vi fastrcnn.sh) 或者直接打开该文件

    • 在这里插入图片描述

    • 通过sbatch 作业名.sh 提交(例如 sbatch fastrcnn.sh)

2.2查看作业

终端输入:squeue

2.3作业删除

终端输入:scancel 作业号 (作业号就是执行squeue,jobid下面的数字号码)

2.4实时查看输出

终端输入:tail -f 输出文件名(输出文件在和脚本文件在同一个目录下,终端输入字母ls或者ll就可以看见)

3. 测试总结

曲线拟合的效果有点不太好。同样的配置下(单卡 8核心),每次计算时间和结果都很不稳定,有很大的差别。这个看情况用吧。

二、 GPU操作手册

1. 安装环境并测试

1.1安装pytorch

需要安装他们提供的pytorch,支持他们的GPU的:

  • 激活自己的环境:source activate 环境名
  • 安装torch: 直接像工程师询问应该装什么版本的pytorch,然后到pytorch【官网】找到对应的版本。按照官网给的指令即可。
1.2查看是否能够调用到GPU
  • 查看队列:whichpartition

  • 申请节点:salloc -p 队列名 -N 1 --gres=gpu:1

  • 根据申请到的节点登录节点:ssh 节点

  • 激活cuda :module load apps/cuda/10.2

  • 激活环境:source activate 环境名

  • 执行如下语句验证:

     python
    
    import torch
    torch.cuda.is_available()
    torch.__version__
    
  • 登出节点 exit

2. 作业操作

2.1 提交作业
  • 首先,自己建立.sh作业提交脚本
  • 作业脚本模板:
    • 作业脚本中要加载驱动,但是并没有配置环境变量

    • 编辑文件:vi 文件名 (例如 vi fastrcnn.sh) 或者直接打开该文件

    • 在这里插入图片描述

    • 通过sbatch 作业名.sh 提交(例如 sbatch fastrcnn.sh)

2.2查看作业

终端输入:squeue

2.3作业删除

终端输入:scancel 作业号 (作业号就是执行squeue,jobid下面的数字号码)

2.4实时查看输出

终端输入:tail -f 输出文件名(输出文件在和脚本文件在同一个目录下,终端输入字母ls或者ll就可以看见)

3. 测试总结

曲线拟合的很好,时间很快。能用这个还是用这个啊。

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值