原repo在Qwen1.5系列实现了upcycling。Pai-Megatron-Patch/examples/qwen1_5/README.md at main · alibaba/Pai-Megatron-Patch · GitHub
于是,我在Qwen2系列修改upcycling。
Megatron-Core-MoE模型格式转换
Qwen1.5
(这个是upcycling)可以通过upcycled的方式将一个dense模型转换成moe模型,比如使用下面的命令可以将1.8B的dense模型转换成Qwen1.5-MoE-A2.7B来进行继续预训练。
cd /workspace/Pai-Megatron-Patch/toolkits/model_checkpoints_convertor/qwen \
sh hf2mcore_