一、训练步骤
可以参考官方说明以及知乎大佬的文章,非常详细
- Pytorch 多卡训练原理与实现 - 知乎
- Distributed communication package - torch.distributed — PyTorch 2.1 documentation
二、一些小技巧
- 在复现公开代码时,发现自己的代码一直卡在dist.init_process_group()这一步没有继续往下运行,折腾了特别久,更改init_method中的tcp后面的ip以及端口号都没有任何效果。后来将init_method更改为''env://''后,代码顺利运行,没有任何问题。