文章目录 内容概括 内容概括 DataParallel(DP)是单进程控制多 GPU,缺点是模型的权重都是在一个进程上先算出来,然后再把他们分发到每个GPU上,所以网络通信就成为了一个瓶颈,而GPU使用率也通常很低。核心是PS算法的问题。除此之外,nn.DataParallel需要所有的GPU都在一个节点(一台机器)上,且并不支持 Apex 的混合精度训练,一句话,一个进程算权重使通信成为瓶颈,nn.DataParallel慢而且不支持混合精度训练。 DistributedDataParallel(DDP)是多进程控制多 GPU,一起训练模型。 参考链接:CSDN链接1,CSDN链接2