DistributedDataParallel(DDP)
Backend
在Pytorch进行分布式训练中,需要在不同的进程间进行通信,完成模型训练过程中参数的传递,主要考虑通信后端和通信模式选择,这要依赖IPC通信机制,这些通信机制是由Pytorch之外的第三方实现的,目前一共支持三种: Pytorch backends
- nccl——NVIDIA(GPU训练推荐)
- gloo——Facebook
- mpi——OpenMPI
Initialization Methods
通信方法,目前主要有三种
- TCP initialization :init_method=‘tcp://10.1.1.20:23456’
- Shared file-system initialization:init_method=‘file:///mnt/nfs/sharedfile’
- env