pytorchlighting报错：raise RuntimeError(“Distributed package doesn‘t have NCCL “RuntimeError: Distribu

最新推荐文章于 2025-09-21 13:20:01 发布

原创

最新推荐文章于 2025-09-21 13:20:01 发布 · 6.1k 阅读

8 ·

CC 4.0 BY-SA版权

本文探讨了在Windows系统中使用PyTorch Lightning时遇到的NCCL不支持导致的DDP报错，提供了修改代码以禁用ddp的方法，并强调了原因分析。

1、该问题的主要原因是windows环境不支持NCCL，所以最好不要使用ddp

1、原因分析

报错代码：

    result = fn(self, *args, **kwargs)
  File "D:\develop\workspace\mrc-for-flat-nested-ner-master\venv\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 1355, in test
    results = self.__test_given_model(model, test_dataloaders)
  File "D:\develop\workspace\mrc-for-flat-nested-ner-master\venv\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 1418, in __test_given_model
    results = self.fit(model)
  File "D:\develop\workspace\mrc-for-flat-nested-ner-master\venv\lib\site-packages\pytorch_lightning\trainer\states.py", line 48, in wrapped_fn
    result = fn(self, *args, **kwargs)
  File "D:\develop\workspace\mrc-for-flat-nested-ner-master\venv\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 1058, in fit
    results = self.accelerator_backend.spawn_ddp_children(model)
  File "D:\develop\workspace\mrc-for-flat-nested-ner-master\venv\lib\sit