Pytorch使用DistributedDataParallel(DDP)多机多卡训练详解
DDP使用多进程训练,在进程运行中,他们的梯度是同步的,每次iteration后梯度会逐个传播,然后一同下降,这样每次iteration后它们的梯度都是一样的,如上图process 0传梯度到process 1,process 1又传回梯度到process 0。在多机多卡训练中使用DDP,我们需要为每张卡创建一个进程,例如两台机(pc1、pc2),每台四卡,我们需要创建8个进程,以下均使用此例子,设pc1的gpu编号为0–3,pc2的为4–7,即他们的global node rank为0–7,它们的lo.
原创
2021-04-26 11:47:41 ·
1979 阅读 ·
0 评论