多机多卡微调模型 RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!
大多数教程都会使用llama3 进行微调测试,因为deepspeed对当前模型支持较好,不会出什么问题,但是当我们微调Qwen系列模型多机多卡形式进行微调会报错,特别是使用 stage3 offload模式时候
当前环境使用llama_factory 中用到了deespeed中标的stage3 offload 功能
但是一直报错,图片如下:
查看当前环境:
python -c "import torch; print(torch.__version__); print(torch.cuda.is_available())"
nvidia-smi
执行命令:
CUDA_VISIBLE_DEVICES=0,1 llamafactory-cli train \
--stage sft \
--do_train True \
--model_name_or_path ./qwen/qwen1.5-1.8b-chat \
--preprocessing_num_workers 16 \
--finetuning_type lora \
--template qwen \
--flash_attn auto \
--dataset_dir ./LLaMA-Factory/data \
--dataset qt_case_info_SSC \
--cutoff_len 1024 \
--learning_rate 5e-05 \
--num_train_epochs 3.0 \
--max_samples 100000 \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 8 \
--lr_scheduler_type cosine \
--max_grad_norm 1.0 \
--logging_steps 5 \
--save_steps 100 \
--warmup_steps 0 \
--optim adamw_torch \
--packing False \
--report_to none \
--output_dir saves/Qwen1.5-1.8B-Chat/lora/train_2024-09-02-18-58-53 \
--fp16 True \
--plot_loss True \
--ddp_timeout 180000000 \
--include_num_input_tokens_seen True \
--lora_rank 8 \
--lora_alpha 16 \
--lora_dropout 0 \
--lora_target all \
--local_rank 1 \
--deepspeed cache/ds_z3_offload_config.json
处理方式:进入pip安装路径下
cd site-packages/deepspeed/runtime/zero
vim stage3.py
在18行引入 get_global_norm
from deepspeed.runtime.utils import inf, get_global_norm
更改:2030行代码
scaled_global_grad_norm = torch.norm(torch.stack(norm_groups))
改成
scaled_global_grad_norm = get_global_norm(norm_list=norm_groups)
完成!
或者直接替换整个文件
使用 github上代码
rm -rf site-packages/deepspeed/runtime/zero/stage3.py
rz 上传文件
变更权限 chmod 664 stage3.py
重新执行上述命令,多卡训练配置完成!