1.1查看所有节点分区
$sinfo
1.2查看节点详情
$scontrol show node=d14r4n16
2.文件传输
从登录节点到资源节点
scp 2workspace.tar root@d14r4n16:~/
从资源节点到登录节点
scp root@d14r4n16:~/2workspace.tar /public/home/bomy
3.作业提交
3.1 srun
srun -p all -w a01r3n01 -N 1 -n 1 --gres=dcu:1 ./checkDcu
srun -p all -N 1 -n 2 --gres=dcu:2 ./checkDcu
srun -p all -N 1 -n 1 --gres=dcu:1 dcuprof --trace ./simpleStream
srun -p all --mpi=pmix_v3 -N 2 ./simpleC2C
3.2 sbatch
3.2.1模板1
#!/bin/bash
#SBATCH -o %j
#SBATCH -J OMP_GPU
#SBATCH -p huge
#SBATCH -t 00:30:00 #指定作业最大运行30分钟
#SBATCH --mem=90G #占用节点全部内存
#SBATCH -N 4 #指定节点数
#SBATCH --ntasks-per-node=4 #指定每个节点的进程数
#SBATCH --ntasks-per-socket=1 #指定每个Socket的进程数,对应于NUMA node
#SBATCH --cpus-per-task=2 #指定每个进程的CPU数,对应多线程场景
#SBATCH --gres=gpu:4 #指定每个节点使用4块GPU卡
3.2.2模板2
#!/bin/bash
#SBATCH -J sleep //指定作业名
#SBATCH -p debug //指定队列
#SBATCH --time=1 //指定运行时间(分钟)
#SBATCH -N 2 //请求节点数
#SBATCH -n 2 //请求核心数
#SBATCH --gres=gpu:2 //请求gpu数
#SBATCH -o logs/%j.sleep //标准输出文件
#SBATCH -e logs/%j.sleep //错误输出文件
3.3 salloc
4.作业查看及删除
squeue //查看作业信息
scontrol show job=134747 //查看作业详细信息
scancel 134747 //删除作业
5.hipDeviceProp
6.性能测试
simprof --trace -trace-demangle 1 ./simpleStream