是在DDP等分布式模式中的概念。分布式通信过程主要是完成模型训练过程中参数信息的传递,主要考虑通信后端和通信模式选择,后端与模式对整个训练的收敛速度影响较大,相差可达2~10倍。
backend 通信后端可选的包括:nccl(NVIDIA推出)、gloo(Facebook推出)、 mpi(OpenMPI)。从测试的效果来看,如果显卡支持nccl,建议后端选择nccl,,其它硬件(非N卡)考虑用gloo、mpi(OpenMPI)。
Pytorch backend 通信后端
最新推荐文章于 2022-07-26 14:55:22 发布
分布式训练中,通信后端的选择对模型训练速度影响显著,NCCL(NVIDIA推出)在支持的硬件上通常表现最佳,其次是Gloo和MPI(OpenMPI)。对于非NVIDIA显卡的环境,可以考虑使用Gloo或MPI进行通信。正确的通信模式和后端能提升训练效率2~10倍。
摘要由CSDN通过智能技术生成