1 安装Merak
$ conda create -n merak python=3.6
$ conda activate merak
$ module load proxy
$ pip install tokenizers==0.10.2
$ pip install torch transformers==4.15.0 pybind11 yacs timm psutil tensorboardX==1.8 datasets==2.0.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
- 注意:必须先安装
tokenizers==0.10.2
,否则直接安装transformers==4.15.0
会自动选择tokenizers==0.10.3导致报错。
2 测试训练模型
首先下载测试代码,解压并进入文件夹。
(1) 如果通过 srun
直接对话窗口运行:
$ module load mpich
$ module load openblas/0.3.12-gcc9.3.0
$ module load yh-torch
$ module load yh-merak
$ yhrun -n 8 -N 2 -p thmt1 bash run.sh
(2) 如果通过 sbatch
提交作业,先创建运行脚本 sbatch_run.sh
:
#!/bin/bash
#SBATCH --job-name=test_bert # 作业名
#SBATCH --ntasks=8 # 分配 8 个任务 (进程)
#SBATCH --nodes=2 # 使用 2 个节点
#SBATCH --partition=thmt1 # 使用 thmt1 分区
module load yh-torch/1.7.1
module load yh-merak/1.1.1
module load mpich/mpi-x-gcc9.3.0
module load openblas/0.3.12-gcc9.3.0
yhrun -n 8 -N 2 -p thmt1 bash run.sh
然后运行:
$ sbatch sbatch_run.sh
运行结果: