raise RuntimeError(“Distributed package doesn‘t have NCCL “ “built in“) RuntimeError: Distributed pa

最新推荐文章于 2024-08-18 15:36:18 发布

lanmy_dl

最新推荐文章于 2024-08-18 15:36:18 发布

阅读量4.3k

点赞数 8

分类专栏：安装配置训练过程服务器文章标签： ubuntu pytorch python

本文链接：https://blog.csdn.net/lanmy_dl/article/details/127144705

版权

安装配置同时被 3 个专栏收录

8 篇文章 0 订阅

订阅专栏

训练过程

8 篇文章 0 订阅

订阅专栏

服务器

6 篇文章 0 订阅

订阅专栏

复现stylegan3的时候报错

torch.multiprocessing.spawn.ProcessRaisedException:
– Process 2 terminated with the following error:
Traceback (most recent call last):
File “/home/ubuntu/miniconda3/lib/python3.8/site-packages/torch/multiprocessing/spawn.py”, line 59, in _wrap
fn(i, *args)
File “/home/ubuntu/lxd-workplace/landf/face/stylegan3-main/train.py”, line 38, in subprocess_fn
torch.distributed.init_process_group(backend=‘nccl’, init_method=init_method, rank=rank, world_size=c.num_gpus)
File “/home/ubuntu/miniconda3/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py”, line 583, in init_process_grou p
default_pg = _new_process_group_helper(
File “/home/ubuntu/miniconda3/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py”, line 708, in _new_process_grou p_helper
raise RuntimeError("Distributed package doesn’t have NCCL " “built in”)
RuntimeError: Distributed package doesn’t have NCCL built in

在这里插入图片描述

在这里插入图片描述
报错代码是这里的nccl

# Init torch.distributed.
    if c.num_gpus > 1:
        init_file = os.path.abspath(os.path.join(temp_dir, '.torch_distributed_init'))
        if os.name == 'nt':
            init_method = 'file:///' + init_file.replace('\\', '/')
            torch.distributed.init_process_group(backend='gloo', init_method=init_method, rank=rank, world_size=c.num_gpus)
        else:
            init_method = f'file://{init_file}'
            torch.distributed.init_process_group(backend='nccl', init_method=init_method, rank=rank, world_size=c.num_gpus)