torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

错误:

原因1:torch的cu版本与使用的CUDA版本不一致。

解决方案:因为我的CUDA是11.6,所以运行下方(需注意cu版本要低于nvidia-smi里的CUDA版本):

pip install torch==1.12.1+cu116 torchvision==0.13.1+cu116 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu116

 原因2:torch的版本大于1.9:

从 PyTorch 1.9 开始,torch.distributed.launch 已被弃用,取而代之的是 torch.distributed.run。因此,在较新版本中,继续使用旧的 launch 命令会引发错误。

解决方案:torch.distributed.launch 替换为新的 torch.distributed.run

python -m torch.distributed.run --nproc_per_node=NUM_GPUS_YOU_HAVE your_script.py
评论 21
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值