1.打印NCCL运行信息
export NCCL_DEBUG=info
2.关于RDMA问题
misc/ibvwrap.cc:252 NCCL WARN Call to ibv_reg_mr failed
2.1 解决办法
出现该问题主要是由于主机没有安装 RDMA, 所以我们需要将 RDMA功能关掉
export NCCL_IB_DISABLE=1
3.关于socket 问题
NCCL WARN Bootstrap : no socket interface found
or
NCCL INFO Call to connect returned Connection refused, retrying
3.1 解决办法
出现该问题主要是由于无法正常访问IP的问题,将 NCCL_SOCKET_IFNAME 设置为 IP 的设备
export NCCL_SOCKET_IFNAME=enp