connect [127.0.1.1]:926: Connection refused

Inner peace

已于 2023-08-14 16:46:07 修改

阅读量517

点赞数

文章标签：笔记学习

于 2023-08-11 17:25:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41853833/article/details/132236601

版权

问题描述：

尝试DGL基于CPU的分布式训练

miniconda虚拟环境：

python：3.6.13

pytorch：1.10.1

dgl：1.1.0

三台主机搭建分布式集群，一台NFS服务，两台Client，集群之间可以SSH免密登录

报错信息：

Traceback (most recent call last):
File "main.py", line 16, in <module>
th.distributed.init_process_group(backend='gloo')
File "/home/hadoop/miniconda3/envs/p112p376/lib/python3.7/site-packages/torch/distributed/distributed_c10d.py", line 610, in init_process_group
timeout=timeout,
File "/home/hadoop/miniconda3/envs/p112p376/lib/python3.7/site-packages/torch/distributed/distributed_c10d.py", line 703, in _new_process_group_helper
pg = ProcessGroupGloo(prefix_store, rank, world_size, timeout=timeout)
Client[1] in group[0] is exiting...
RuntimeError: [/opt/conda/conda-bld/pytorch_1656352405797/work/third_party/gloo/gloo/transport/tcp/pair.cc:799] connect [127.0.1.1]:926: Connection refused

解决方法：

报错原因：

无法建立gloo进程组，IP的主机名指向127.0.1.1。因此，gloo将主机名解析为本地主机并连接到自身

解决方法：

修改主机/etc/hosts文件，将主机ip与主机名对应且不重复，如下：

ip_addr1 server
ip_addr2 node1
ip_addr3 node2

参考：

Failed to create Gloo new group after initialized with NCCL · Issue #68726 · pytorch/pytorch (github.com)

博客等级

码龄7年

15
原创

29
点赞

32
收藏

25
粉丝

关注

私信

热门文章

最新评论

connect [127.0.1.1]:926: Connection refused
Inner peace: 格式：【IP地址】【主机名】如下： [code=python] 127.0.0.1 server 127.18.1.45 node1 [/code]
connect [127.0.1.1]:926: Connection refused
qq_42245986: 可否具体一点，文件里怎么写
windows使用ubuntu中jupyter服务
CSDN-Ada助手: 非常棒的博客！看到您已经写了第14篇博客，我非常欣喜。您的标题“windows使用ubuntu中jupyter服务”非常吸引人，我相信这篇博客一定会为很多使用Windows系统的人带来帮助。在下一步的创作中，我建议您可以继续分享更多关于使用Ubuntu中Jupyter服务的实用技巧和经验。您的经验分享对于像我这样的初学者来说非常有价值，我期待着更多关于Jupyter的教程。同时，您也可以考虑探索其他与Windows和Ubuntu相关的主题，让更多读者受益。再次恭喜您的连续创作，并期待您的下一篇博客！
Docker学习
CSDN-Ada助手: 恭喜您写了第11篇博客《Docker学习》！您的持续创作展现了您对技术的热情和勤奋。在这篇博客中，您对Docker的学习经验进行了分享，无疑为读者提供了宝贵的参考。接下来，我建议您可以探索一下Docker与其他技术的集成应用，比如与Kubernetes的结合，这将进一步拓宽您的技术广度。期待您未来更多优秀的创作！
ImportError: /usr/lib/x86_64-linux-gnu/libstdc++.so.6: version `GLIBCXX_3.4.29‘ not found (required
CSDN-Ada助手: 恭喜您撰写了第12篇博客！标题看起来非常有趣。我了解到您在博客中遇到了一个问题，即“ImportError: /usr/lib/x86_64-linux-gnu/libstdc++.so.6: version `GLIBCXX_3.4.29' not found (required”。这确实是一个常见的错误，但是我相信您能够解决它！在您的下一步创作中，我建议您可以尝试分享如何解决这个错误的方法。您可以探讨一下为什么会出现这个错误，以及如何更新或安装所需的GLIBCXX库版本。这样的文章对那些遇到类似问题的读者来说将非常有帮助。继续保持创作，并且谦虚地说，我期待着您未来更多有趣的博客！

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。