【分布式多卡训练问题】：error: unrecognized arguments:Error initializing torch.distributed using env:// rendezvo

funqiqi

已于 2024-08-08 15:40:31 修改

阅读量225

点赞数 2

文章标签：分布式 python

于 2024-08-08 15:32:28 首次发布

本文链接：https://blog.csdn.net/sept_boy/article/details/141028014

版权

问题描述

在分布式训练时可能会遇到以下报错

error: unrecognized arguments: --local-rank=2
ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable RANK

原因分析：

提示：这里填写问题的分析：

注意以下的local rank,这是torch1.x和torch2.x两种写法,实际上就是参数因为这个小的细节，根本就不存在

local-rank #torch2.0
local_rank #torch1.0

而如果使用torch.distribution.launch 方法也是一直无法实现

解决方案：

提示：这里填写该问题的具体解决方案：

1：写成以下方式，引入–local-rank，

    parser.add_argument('--local_rank', type=int, default=0)
    parser.add_argument('--local-rank', type=int, default=0)
    args = parser.parse_args()
    if 'LOCAL_RANK' not in os.environ:
        os.environ['LOCAL_RANK'] = str(args.local_rank)

再使用命令

CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node=4 train.py

2:在命令行中
将torch.distribution.launch 换成torch.distriution.run

CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.run --nproc_per_node=4 train.py

以上

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

funqiqi

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【踩坑日记10】ValueError: Error initializing torch.distributed using env:// rendezvous: environment variab

weixin_47894469的博客

03-24

1356

【代码】【踩坑日记10】ValueError: Error initializing torch.distributed using env:// rendezvous: environment variab。

pytorch 分布式多卡

char256

08-31

6081

记录一下使用多卡训练时用的方法还有碰到的问题使用dataparallel类相对比较简单，distributeddataparallel可以稍微提升效率，在单节点上面也可以跑。这里就只按照单节点写了。更正式的代码参考pytorch官方给的imagenet分布式训练代码代码： import sys import os sys.path.append(os.path.join(os.path.dirname(__file__), '..')) import torch from xxx.modeling

参与评论您还未登录，请先登录后发表或查看评论

基于pytorch的单机多卡分布式训练源码

09-06

基于pytorch的单机多卡分布式训练源码，已经测试可用，找了很多资料，这个可以完美适用于单机多卡的训练。注意，是非常完美地适用于单机多卡的训练！！！

[swin-trans]分布式训练的debug：ValueError: Error initializing torch.distributed using env:// rendezvous: en

weixin_41529093的博客

03-24

2万+

仅作为记录，大佬请跳过。在用torch.distributed.init_process_group(backend='nccl', init_method='env://', world_size=world_size, rank=rank)时，出现文章目录1、ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable MASTER_ADDR expected, but n

解决pytorch多进程ValueError: Error initializing torch.distributed using env:// rendezvou...报错

热门推荐

呆萌的代Ma

07-13

3万+

完整报错为：ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable MASTER_ADDR expected, but not set 解决方法1：在代码中使用： import os os.environ['MASTER_ADDR'] = 'localhost' os.environ['MASTER_PORT'] = '5678' 解决方法2：如果是运行命令行的，可以

报错：ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable MA

weixin_51670564的博客

08-31

849

这意味着主节点位于本地计算机上，即当前运行代码的计算机。通常，这个地址是主节点的 IP 地址或主机名。指定正确的主节点地址对于其他计算节点能够连接到主节点至关重要。，这是一个数字，用于表示主节点侦听传入连接的端口。每个节点都需要知道主节点在哪个端口上侦听连接，以便能够与主节点进行通信。在分布式计算环境中，各个计算节点（包括主节点）通过这两个环境变量来协调通信，以便能够一起执行任务。：这是指定主节点的端口号的环境变量。：这是指定主节点的地址的环境变量。，它们用于配置分布式计算的主节点信息。

解决ValueError: Error initializing torch.distributed using env:// rendezvous:: environment variable 报错

weixin_57634679的博客

02-17

1万+

解决ValueError: Error initializing torch.distributed using env:// rendezvous:: environment variable 报错

ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 1447037) of binary: /usr/bin/python

07-29

- *2* [【解决】pytorch单机多卡问题：ERROR: torch.distributed.elastic.multiprocessing.api:failed](https://blog.csdn.net/Caesar6666/article/details/126893353)[target="_blank" data-report-click={"spm":...

【PyTorch深度学习项目实战200例】—— pytorch设置分布式多卡训练第4例

timixy的博客

03-31

358

这个类会自动将模型和数据分发到所有可用的 GPU 上，并在每个 GPU 上运行一个副本。接下来，你需要初始化分布式后端。首先，你需要设置每个 GPU 的环境变量，以便 PyTorch 可以识别并使用它们。如果你想使用 PyTorch 进行多卡训练，可以使用 PyTorch 的分布式训练模块。接下来，你需要将模型和数据划分到不同的进程和 GPU 上。这个代码会在多个 GPU 上并行地运行，并自动分布数据和模型。最后，你需要使用分布式优化器来更新模型参数。这将设置使用 GPU 0、1、2 和 3 进行训练。

【opengait】ValueError: Error initializing torch.distributed using env:// rendezvous: environment vari

weixin_46135327的博客

11-29

4735

ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable RANK expected, but not set

（已解决）ValueError initializing torch.distributed using env:// rendezvous: environment variable MASTE

最新发布

qq_43391414的博客

09-22

287

而且还使用了以下这些东西。这个错误是在使用多进程。

ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable RANK

东皇太一在此的博客

11-01

1029

【代码】ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable RANK。

torch分布式训练报错

qq_33596242的博客

08-22

3484

CUDA_VISIBLE_DEVICES这个变量设置成自己想用的gpu序号即可。

单机多GPU训练

qq_45926473的博客

09-28

1710

【代码】单机多GPU训练。

解决python脚本错误train.py:error: unrecognized arguments

qq_39195733的博客

06-25

1万+

一个简单的debug 过程，希望对大家有所帮助，少踩坑

解决使用多GPU进行训练时报错：unrecognized arguments: --local_rank 的问题

AmbitiousTyj的博客

10-25

1241

网上运行方法都是在命令行中使用。

前端资源文件加载失败_一道不一样的前端架构师最终面试题

weixin_39804329的博客

11-22

350

来自公众号：前端巅峰本次写作来源于一次面试，前端架构师岗位，最后面试官临时给我掏出了一道比较少见的面试题，终究斩获offer ，虽然这道题并不难，但是考察的东西挺有趣，加上近期有看到前端防御性编程、优雅处理前端错误的文章，于是想起来把这道题写了下来。这是一个关于前端错误处理的题目，由浅入深本题答案：xxxx未定义，致命错误，之前无错误捕获处理机制，页面没有跳转到百度第二个版本：这里还...

yolov5单机多卡训练报错

qq_40396104的博客

07-28

875

Traceback (most recent call last): File “train.py”, line 638, in main(opt) File “train.py”, line 532, in main train(opt.hyp, opt, device, callbacks) File “train.py”, line 113, in train data_dict = data_dict or check_dataset(data) # check if None File “/ho