deepspeed 多机多卡启动 deepspeed.init 卡住怎么办?

现象:

1. deepspeed --num_gpus 4 --num_nodes 2 --hostfile /data_shared/xxx/config/node_1_2 --master_port 29500  --master_addr XXXXXX   /dataxxxxxx/train.py
卡在:[INFO] [config.py:733:__init__] Config mesh_device None world_size = 8,[INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
半小时后:RuntimeError: Timed out initializing process group in store based barrier on rank: 5, for key: store_based_barrier_key:1 (world_size=8, worker_count=4, timeout=0:30:00) 超时

2. bin/python -m torch.distributed.run --nproc_per_node=4 --nnode=2 --node_rank=0 --master_addr=1XXXXX --master_port=9901 /data_shared/XXXX/train.py

报错:

/torch/csrc/distributed/c10d/NCCLUtils.hpp:219, invalid argument, NCCL version 2.14.3

ncclInvalidArgument: Invalid value for an argument.

Last error:

Invalid config blocking attribute value -2147483648

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值