torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

AI算法网奇

已于 2024-03-28 20:34:00 修改

阅读量2.4k

点赞数 1

分类专栏： python基础文章标签：深度学习 python 人工智能

于 2024-03-28 19:04:05 首次发布

本文链接：https://blog.csdn.net/jacke121/article/details/137121257

版权

python基础专栏收录该内容

433 篇文章 52 订阅

订阅专栏

torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

原因：torch的cu版本与使用的CUDA版本不一致。

解决方案：因为我的CUDA是11.6，所以运行下方（需注意cu版本要低于nvidia-smi里的CUDA版本）：

pip install torch==1.12.1+cu116 torchvision==0.13.1+cu116 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu116

查了一下cuda 11.8

另一种方法：

torch.distributed.elastic.multiprocessing.errors.ChildFailedError-CSDN博客

修改finetune_qlora_ds.sh，设置GPUS_PER_NODE与可使用GPU数相同

GPUS_PER_NODE=2

torch.distributedtorch.distributed…DistBackendErrorDistBackendError: : NCCL error in: …/torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1275, internal error, NCCL version 2.14.3

这个不知道什么原因，然后解决方法是
增加环境变量NCCL_SOCKET_IFNAME=eth2

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AI算法网奇

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

torch.distributed.elastic.multiprocessing.errors.ChildFailedError:
复制链接

扫一扫