天津超算(天河平台)部署并行训练框架Meark并完成训练

1 安装Merak

$ conda create -n merak python=3.6
$ conda activate merak
$ module load proxy
$ pip install tokenizers==0.10.2
$ pip install torch transformers==4.15.0 pybind11 yacs timm psutil tensorboardX==1.8 datasets==2.0.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
  • 注意:必须先安装 tokenizers==0.10.2 ,否则直接安装 transformers==4.15.0 会自动选择tokenizers==0.10.3导致报错。

2 测试训练模型

首先下载测试代码,解压并进入文件夹。

(1) 如果通过 srun 直接对话窗口运行:

$ module load mpich
$ module load openblas/0.3.12-gcc9.3.0
$ module load yh-torch
$ module load yh-merak

$ yhrun -n 8 -N 2 -p thmt1 bash run.sh

(2) 如果通过 sbatch 提交作业,先创建运行脚本 sbatch_run.sh

#!/bin/bash
#SBATCH --job-name=test_bert       # 作业名
#SBATCH --ntasks=8              # 分配 8 个任务 (进程)
#SBATCH --nodes=2               # 使用 2 个节点
#SBATCH --partition=thmt1       # 使用 thmt1 分区

module load yh-torch/1.7.1
module load yh-merak/1.1.1
module load mpich/mpi-x-gcc9.3.0
module load openblas/0.3.12-gcc9.3.0

yhrun -n 8 -N 2 -p thmt1 bash run.sh

然后运行:

$ sbatch sbatch_run.sh

运行结果:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值