我解决了这个bug
在deepspeed训练模型中存在
1.ifconfig
查看eno,有的人是eno,查看docker之后第一组
2.添加
vim ~/.bashrc
export NCCL_IB_DISABLE=1
export NCCL_SOCKET_IFNAME=eno1
export NCCL_P2P_DISABLE=1
export NCCL_DEBUG=INFO
source ~/.bashrc
07-03
7154
02-24
776
10-17
963
“相关推荐”对你有帮助么?
-
非常没帮助
-
没帮助
-
一般
-
有帮助
-
非常有帮助
提交