pytorch 多机多卡DDP训练遇到ncclSystemError: System call (socket, malloc, munmap, etc) failed错误解决办法

最新推荐文章于 2024-04-29 13:17:02 发布

fool-zz

最新推荐文章于 2024-04-29 13:17:02 发布

阅读量3.8k

点赞数 3

文章标签： pytorch 分布式

原文链接：https://blog.csdn.net/u013157943/article/details/124966352

版权

直接在终端输入以下命令，方便查看NCCL日志

export NCCL_DEBUG=INFO
export NCCL_IB_DISABLE=1
export NCCL_SOCKET_IFNAME=enp4s0，此处enp4s0为每台机器的网卡名字，使用ifconfig查看，要是出现多个网卡名字，找到那个右IP地址、网关和掩码的那个名字，这一步是最重要的

然后再训练就可以了

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
11
评论
pytorch 多机多卡DDP训练遇到ncclSystemError: System call (socket, malloc, munmap, etc) failed错误解决办法

export NCCL_SOCKET_IFNAME=enp4s0，此处enp4s0为每台机器的网卡名字，使用ifconfig查看，要是出现多个网卡名字，找到那个右IP地址、网关和掩码的那个名字，直接在终端输入以下命令，方便查看NCCL日志。
复制链接

扫一扫

fool-zz CSDN认证博客专家 CSDN认证企业博客

码龄10年

23: 原创

14万+: 周排名

33万+: 总排名

19万+: 访问

: 等级

1822: 积分

62: 粉丝

117: 获赞

149: 评论

180: 收藏

私信

关注

热门文章

最新评论

pytorch 多机多卡DDP训练遇到ncclSystemError: System call (socket, malloc, munmap, etc) failed错误解决办法
fool-zz: 这看起来还是两台机器的通信出了问题可以试试不同的后端 nccl之类的
pytorch 多机多卡DDP训练遇到ncclSystemError: System call (socket, malloc, munmap, etc) failed错误解决办法
loong_XL: 1、ncclSystemError: System call (e.g. socket, malloc) or external library call failed or device error. 2、 NCCL INFO NET/IB : No device found. 3、misc/socket.cc:483 NCCL WARN socketStartConnect: Connect to 10.***.2<34584> failed : No route to host 4、RuntimeError: The client socket has failed to connect to any network address of (19***4, 8166). The client socket has failed to connect to tmp:8166 (errno: 113 - No route to host 5、[E socket.cpp:719] [c10d] The client socket has failed to connect to any network address
pytorch 多机多卡DDP训练遇到ncclSystemError: System call (socket, malloc, munmap, etc) failed错误解决办法
loong_XL: 嗯谢谢，需要分别指定对应网卡才行
pytorch 多机多卡DDP训练遇到ncclSystemError: System call (socket, malloc, munmap, etc) failed错误解决办法
fool-zz: 能通的话训练是报啥错呢
pytorch 多机多卡DDP训练遇到ncclSystemError: System call (socket, malloc, munmap, etc) failed错误解决办法
loong_XL: ping互相ip是可以的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 11

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。