deepspeed、llama_factory报错 RuntimeError: Expected all tensors to be on the same device

多机多卡微调模型 RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!

大多数教程都会使用llama3 进行微调测试,因为deepspeed对当前模型支持较好,不会出什么问题,但是当我们微调Qwen系列模型多机多卡形式进行微调会报错,特别是使用 stage3 offload模式时候

当前环境使用llama_factory 中用到了deespeed中标的stage3 offload 功能
但是一直报错,图片如下:
在这里插入图片描述
查看当前环境:

python -c "import torch; print(torch.__version__); print(torch.cuda.is_available())"

在这里插入图片描述

nvidia-smi

在这里插入图片描述
执行命令:

CUDA_VISIBLE_DEVICES=0,1 llamafactory-cli train \
    --stage sft \
    --do_train True \
    --model_name_or_path ./qwen/qwen1.5-1.8b-chat \
    --preprocessing_num_workers 16 \
    --finetuning_type lora \
    --template qwen \
    --flash_attn auto \
    --dataset_dir ./LLaMA-Factory/data \
    --dataset qt_case_info_SSC \
    --cutoff_len 1024 \
    --learning_rate 5e-05 \
    --num_train_epochs 3.0 \
    --max_samples 100000 \
    --per_device_train_batch_size 1 \
    --gradient_accumulation_steps 8 \
    --lr_scheduler_type cosine \
    --max_grad_norm 1.0 \
    --logging_steps 5 \
    --save_steps 100 \
    --warmup_steps 0 \
    --optim adamw_torch \
    --packing False \
    --report_to none \
    --output_dir saves/Qwen1.5-1.8B-Chat/lora/train_2024-09-02-18-58-53 \
    --fp16 True \
    --plot_loss True \
    --ddp_timeout 180000000 \
    --include_num_input_tokens_seen True \
    --lora_rank 8 \
    --lora_alpha 16 \
    --lora_dropout 0 \
    --lora_target all \
    --local_rank 1 \
    --deepspeed cache/ds_z3_offload_config.json

处理方式:进入pip安装路径下

cd site-packages/deepspeed/runtime/zero 
vim stage3.py 

在18行引入 get_global_norm

from deepspeed.runtime.utils import inf, get_global_norm

更改:2030行代码

scaled_global_grad_norm = torch.norm(torch.stack(norm_groups)) 
改成
scaled_global_grad_norm = get_global_norm(norm_list=norm_groups)

完成!

或者直接替换整个文件
使用 github上代码

rm -rf site-packages/deepspeed/runtime/zero/stage3.py
rz 上传文件
变更权限 chmod 664 stage3.py

重新执行上述命令,多卡训练配置完成!

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PyTorch的DDP(Distributed Data Parallel)是一种多机多卡训练方法,它通过提高batch size来增加并行度,从而加快模型训练速度。DDP使用了一种称为Ring-Reduce的数据交换方法,这种方法提高了通信效率,并且通过启动多个进程的方式减轻了Python GIL(全局解释器锁)的限制。因此,DDP通常比DP(Data Parallel)更快,能够实现略低于使用的卡数的加速比(例如,在四卡下可能会加速3倍)。因此,DDP是目前最流行的多机多卡训练方法之一。 在使用DDP时,你只需要在代码中添加一行简单的语句即可使用。具体来说,你需要将你的模型包装在DDP函数中,并指定设备ID(device_ids)和输出设备(output_device)。这样就可以启用DDP,并在多机多卡环境中运行模型训练。 如果你需要了解更多关于PyTorch DDP的详细信息,可以参考一些相关的教程和示例代码,例如《PyTorch分布式训练简明教程》和《PyTorch多机多卡分布式训练》。这些资源可以帮助你更好地理解和使用PyTorch的DDP功能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Pytorch中的DDP](https://blog.csdn.net/flyingluohaipeng/article/details/127900749)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值