OpenMM超算云配置
超算云使用流程
加载所需要的模块
- 利用
module avail
查看当前可用的模块,例如Anaconda、CUDA、GCC等; - 利用
module load module-name
加载所需要的模块,例如:module load CUDA/11.1
。
创建并激活python环境
conda create --name mmcls python=3.8
;conda activate mmcls
,若此时环境并未激活则执行source activate mmcls
;- 之后可通过
pip install pakage-name
安装所需要python包; - 注意在安装mmcv-full模块时需要注意torch和CUDA的版本。
提交任务
为了方便我们可以新建一个作业脚本,命名为 run.sh,具体内容如下:
#!/bin/bash
# 加载模块
module load anaconda/2021.05
module load cuda/11.1
module load gcc/7.3
# 激活环境
source activate opennmmlab_mmclassification
# 刷新日志缓存
export PYTHONUNBUFFERED=1
# 训练模型
python tools/train.py configs/resnet18/resnet18_b32_flower.py --work-dir work/resnet18_b32_flower
通过sbatch --gpus=1 run.sh
提交作业。
查看当前任务
可通过 squeue
或者parajobs
查看提交的作业,当作业完成后,可以看到.out
为后缀的文件,里面保存作业的结果。
可通过tail -f slurm-作业ID.out
实时展示训练轮次、损失等数据。