单机多卡训练步骤及一些技巧

一、训练步骤

可以参考官方说明以及知乎大佬的文章,非常详细

  1. Pytorch 多卡训练原理与实现 - 知乎
  2. Distributed communication package - torch.distributed — PyTorch 2.1 documentation

二、一些小技巧

  1. 在复现公开代码时,发现自己的代码一直卡在dist.init_process_group()这一步没有继续往下运行,折腾了特别久,更改init_method中的tcp后面的ip以及端口号都没有任何效果。后来将init_method更改为''env://''后,代码顺利运行,没有任何问题。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值