【分布式多卡训练问题】:error: unrecognized arguments:Error initializing torch.distributed using env:// rendezvo

问题描述

在分布式训练时可能会遇到以下报错

error: unrecognized arguments: --local-rank=2
ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable RANK


原因分析:

提示:这里填写问题的分析:

注意以下的local rank,这是torch1.x和torch2.x两种写法,实际上就是参数因为这个小的细节,根本就不存在

local-rank #torch2.0
local_rank #torch1.0

而如果使用torch.distribution.launch 方法也是一直无法实现


解决方案:

提示:这里填写该问题的具体解决方案:

1:写成以下方式,引入–local-rank,

    parser.add_argument('--local_rank', type=int, default=0)
    parser.add_argument('--local-rank', type=int, default=0)
    args = parser.parse_args()
    if 'LOCAL_RANK' not in os.environ:
        os.environ['LOCAL_RANK'] = str(args.local_rank)

再使用命令

CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node=4 train.py

2:在命令行中
将torch.distribution.launch 换成torch.distriution.run

CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.run --nproc_per_node=4 train.py

以上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值