在WSL2上使用pytorch1.7.1,无法进行多显卡分布式训练,提示“RuntimeError: NCCL Error 2: unhandled system error”,一直不知道什么意思,后来上网搜索,发现可以打印nccl的日志
(链接) ,以获得更为详细的出错提示。随即在环境变量里添加了
export NCCL_DEBUG=info
export NCCL_SOCKET_IFNAME=eth0
export NCCL_IB_DISABLE=1
再次训练,这次打印出了更为详细的错误信息。如下:
DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO Bootstrap : Using [0]eth0:172.24.6.154<0>
DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO NCCL_IB_DISABLE set by environment to 1.
DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO NET/Socket : Using [0]eth0:172.24.6.154<0>
DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO Using network Socket
NCCL version 2.7.8+cuda11.0
DESKTOP-SVB4DC0:26340:26714