是在DDP等分布式模式中的概念。分布式通信过程主要是完成模型训练过程中参数信息的传递,主要考虑通信后端和通信模式选择,后端与模式对整个训练的收敛速度影响较大,相差可达2~10倍。
backend 通信后端可选的包括:nccl(NVIDIA推出)、gloo(Facebook推出)、 mpi(OpenMPI)。从测试的效果来看,如果显卡支持nccl,建议后端选择nccl,,其它硬件(非N卡)考虑用gloo、mpi(OpenMPI)。
Pytorch backend 通信后端
最新推荐文章于 2025-03-28 12:22:56 发布