slurm作业提交系统常用命令

写下自己的关于slurm感悟一二

与各人pc不同,slurm的基本架构是,一个中专节点,之后有很多局域网ip对应不同的计算节点,在中专节点敲命令,命令中可以指定需要用到哪些计算节点

1. 查看有哪些分区 sinfo命令

2. 指定节点跑程序srun,比如这里我有一个run.py的文件,是print(1)

slurm最基本的命令是srun,比如上面一行是指定-p分区,-w节点名称运行一个run.py的文件,当然还有更高级的,指定gpu的数量和指定进程的数量

比如上面的命令,--gres=gpu:8表示每个节点上用几个gpu,-n表示有多少个进程,一般多线程的时候,用到多卡的时候会这么操作

3. 查看自己任务的run的情况,squeue -u +用户

比如上图,我运行了ipython命令,然后我用squeue -u +我的用户名,查看了一下我的任务占据的节点的名称,分区jobid等等,这个命令的主要作用还是有时候机器用完的时候,排队用机器,看看排队情况,或者是不指定节点名称的时候(刚刚我们说的-w指定节点名称,实际上也可以不指定,这个时候slurm系统自动分配),看看节点名称是多少,方便后续操作

4. 查看gpu使用情况

swatch +节点名称+nv

因为放到了cuda里面,确实占用一定的显存

查看cpu:swatch+节点名称+top

查看内存:swatch+节点名称+free

查看内存或者是gpu的使用的时候,可以使多个节点一起看,中间用逗号隔开即可

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值