pytorch No rendezvous handler for env://

最新推荐文章于 2023-10-27 10:29:38 发布

AI算法网奇

最新推荐文章于 2023-10-27 10:29:38 发布

阅读量3.6k

点赞数

分类专栏： pytorch知识宝典文章标签： pytorch 人工智能 python

pytorch知识宝典专栏收录该内容

499 篇文章 224 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

这篇博客探讨了在遇到PyTorch分布式训练时出现的'No rendezvous handler for env://'错误的解决方法。尝试将backend从'nccl'改为'gloo'并未解决问题，而更新到PyTorch 1.8也未见效。文章引用了相关参考资源，介绍了torch.distributed的优势，如独立的训练过程和仅交换少量数据的特性。此外，还简要提到了分布式训练的介绍。

摘要由CSDN通过智能技术生成

目录

参考文章：

1、尝试将 backend=‘nccl’ 修改为 backend=‘gloo’，原因是win10暂时不支持nccl模式。

结果：未解决。

2、尝试更新pytorch至1.8。（为了提高 NCCL 稳定性，PyTorch 1.8 将支持稳定的异步错误/超时处理；支持 RPC 分析。此外，还增加了对管道并行的支持，并可以通过 DDP 中的通讯钩子进行梯度压缩。）

参考文章：

参考1：

RunTimeError：No rendezvous handler for env:// - 知乎

参考2：

ImportError：cannot import name ‘save_state_warning‘和解决torch1.7.1报分布式错误No rendezvous handler for env:_MASTER-松哥的博客-CSDN博客

torch.distributed 的优势如下：

1. 每个进程对应一个独立的训练过程，且只对梯度等少量数据进行信息交换。

2. 每个进程包含独立的解释器和 GIL。

二分布式训练介绍

分布式训练可以分为：

单机多卡，DataParallel（最常用，最简单）
单机多卡，DistributedDataParallel（较高级）
多机多卡，DistributedDataParallel（最高级）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pytorch No rendezvous handler for env://

目录参考文章：1、尝试将 backend=‘nccl’ 修改为 backend=‘gloo’，原因是win10暂时不支持nccl模式。结果：未解决。2、尝试更新pytorch至1.8。（为了提高 NCCL 稳定性，PyTorch 1.8 将支持稳定的异步错误/超时处理；支持 RPC 分析。此外，还增加了对管道并行的支持，并可以通过 DDP 中的通讯钩子进行梯度压缩。）参考文章：参考1：RunTimeError：No rendezvous handler for env:/
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。