WSL2,NCCL报错RuntimeError: NCCL Error 2: unhandled system error

在WSL2环境下,使用PyTorch1.7.1进行多GPU分布式训练时遇到'RuntimeError: NCCL Error 2: unhandled system error'的问题。通过设置环境变量NCCL_DEBUG=info和NCCL_IB_DISABLE=1,获取到更详细的错误信息。错误源于NCCL无法找到PCI设备路径。解决方案是升级NCCL版本到2.11.4及以上,并从源码编译安装PyTorch,确保其使用系统已安装的高版本NCCL。
摘要由CSDN通过智能技术生成

在WSL2上使用pytorch1.7.1,无法进行多显卡分布式训练,提示“RuntimeError: NCCL Error 2: unhandled system error”,一直不知道什么意思,后来上网搜索,发现可以打印nccl的日志

链接) ,以获得更为详细的出错提示。随即在环境变量里添加了

export NCCL_DEBUG=info
export NCCL_SOCKET_IFNAME=eth0
export NCCL_IB_DISABLE=1

再次训练,这次打印出了更为详细的错误信息。如下:

DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO Bootstrap : Using [0]eth0:172.24.6.154<0>
DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO NCCL_IB_DISABLE set by environment to 1.
DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO NET/Socket : Using [0]eth0:172.24.6.154<0>
DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO Using network Socket
NCCL version 2.7.8+cuda11.0

DESKTOP-SVB4DC0:26340:26714

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值