直接在终端输入以下命令,方便查看NCCL日志
export NCCL_DEBUG=INFO
export NCCL_IB_DISABLE=1
export NCCL_SOCKET_IFNAME=enp4s0,此处enp4s0为每台机器的网卡名字,使用ifconfig查看,要是出现多个网卡名字,找到那个右IP地址、网关和掩码的那个名字,这一步是最重要的
然后再训练就可以了
直接在终端输入以下命令,方便查看NCCL日志
export NCCL_DEBUG=INFO
export NCCL_IB_DISABLE=1
export NCCL_SOCKET_IFNAME=enp4s0,此处enp4s0为每台机器的网卡名字,使用ifconfig查看,要是出现多个网卡名字,找到那个右IP地址、网关和掩码的那个名字,这一步是最重要的
然后再训练就可以了