在测试一个GPU 8*A100过程中,一直Nvidia-smi没有有效的输出,而且也很疑惑为什么要SSH服务器之后,还要SSH GPU节点,原来集群用Slurm管理,需要自己申请资源
首先用
module load slurm
sinfo
然后查看可用资源
然后就可以申请自己需要的资源了
srun --pty --gres=gpu:8 bash
这个8应该是只8块GPU,然后发现登录名后的@名字变成了NODELIST的名字,说明申请成功了,如果有别人在用就要排队。现在可以正常使用GPU节点。