[论文笔记] pai-megatron-patch Qwen2-72B-CT 后预训练 踩坑记录_qwen2 训练不收敛-CSDN博客
参照之前的踩坑记录,tokenize慢是因为文件夹里面的jsonl太多了。
解决方案是 合并到一个merge.jsonl,再进行tokenize。
[论文笔记] pai-megatron-patch Qwen2-72B-CT 后预训练 踩坑记录_qwen2 训练不收敛-CSDN博客
参照之前的踩坑记录,tokenize慢是因为文件夹里面的jsonl太多了。
解决方案是 合并到一个merge.jsonl,再进行tokenize。