[论文笔记] pai-megatron-patch megatron 模型接着训练 继续训练

继续训练的话,不要用megatron的检查点转换回hf模型。

1、要直接 load megatron模型。load $checkpoint_path

2、其中 checkpoint_path 中的 last_iteration_txt (好像是这个名字) 要改成自己需要的。

3、需要在checkpoints文件夹里面加config.json、vocab.json,merges.txt等。

#!/bin/bash
set +x
export NCCL_DEBUG=WARN
export NCCL_IB_QPS_PER_CONNECTION=32
# ^(=.=)^
PYTHON=$(which python)
sed -i "s|barrier_timeout: float = 300|barrier_timeout: float = 1800|g" $PYTHO/site-packages/torch/distributed/elastic/utils/store.py
pip install transformers==4.37.0 -i https://pypi.doubanio.com/simple/
# 
EPOCH=2
SEQUENCE_LENGTH=4096

WARMUP_TOKENS=0
MICRO_BATCH_SIZE=1
GLOBAL_BATCH_SIZE=1024
MODEL_SIZE=72B
TP_SIZE=8
PP_SIZE=4
PAD_LEN=$SEQUENCE_LENGTH
SAVE_INTERVAL=1000

DIR_NAME="qwen1.5_72B"
DATA_OUTPUT_PATH="/mnt/nas/pretrain/runs/qwen1.5-72B-22lan-ct-06111345"
CHECKPOINT_PATH="$DATA_OUTPUT_PATH/checkpoint
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心心喵

喵喵(*^▽^*)

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值