经过以下修改,Qwen2-72B-CT可以正常训练,并且benchmark指标和loss正常。
Qwen2-72B-CT开长文本,256卡,16K会OOM,目前能开11K(11008)。
后面开了SP,能开到16K(tp8pp8)。
[论文笔记] Pai-megatron Qwen1.5-14B-CT 后预训练 踩坑记录_pai-megatron-patch 多机-CSDN博客
[论文笔记] pai-megatron-patch Qwen2 tokenize代码踩坑-CSDN博客
一、改动
1、模型加载:strict=False
vim ./PAI-Megatron-Patch/Megatron-LM-240405/megatron/training/checkpointing.py
vim /mnt/cpfs/kexin/dlc_code/qwen2/moe/Pai-Megatron-Patch/Megatron-LM-240612/megatron/training/checkpointing.py
在716行,改掉strict = False。