pytorch 多机多卡训练问题总结

1.打印NCCL运行信息

 export NCCL_DEBUG=info

2.关于RDMA问题

misc/ibvwrap.cc:252 NCCL WARN Call to ibv_reg_mr failed

2.1 解决办法

	出现该问题主要是由于主机没有安装 RDMA, 所以我们需要将 RDMA功能关掉
export NCCL_IB_DISABLE=1

3.关于socket 问题

NCCL WARN Bootstrap : no socket interface found
or
NCCL INFO Call to connect returned Connection refused, retrying

3.1 解决办法

	出现该问题主要是由于无法正常访问IP的问题,将 NCCL_SOCKET_IFNAME 设置为 IP 的设备
export NCCL_SOCKET_IFNAME=enp
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值