Pytorch DistributedDataParallel（DDP）教程一：快速入门理论篇

原创

已于 2024-04-15 10:45:27 修改

· 2.6k 阅读

31 ·

版权

文章标签：

#pytorch #python #DDP #分布式训练

于 2024-04-15 09:31:07 首次发布

Pytorch DistributedDataParallel（DDP）教程一：快速入门理论篇

随着深度学习技术的不断发展，模型的训练成本也越来越高。训练一个高效的通用模型，需要大量的训练数据和算力。在很多非大模型相关的常规任务上，往往也需要使用多卡来进行并行训练。在多卡训练中，最为常用的就是分布式数据并行（DistributedDataParallel, DDP）。但是现有的有关DDP的教程和博客比较少，内容也比较分散繁琐。在大多数情况下，我们只需要学会如何使用即可，不需要特别深入地了解原理。为此，写下这个系列博客，简明扼要地介绍一下DDP的使用，抛开繁杂的细节和原理，帮助快速上手使用（All in one blog）。

篇幅较长，分为上下两篇：这篇简要介绍相关背景和理论知识，下篇详细介绍代码框架和搭建流程。

二、什么是分布式并行训练

1. 并行训练

在Pytorch中，有两种并行训练方式：

1）模型并行。模型并行通常是指你的模型非常大，大到一块卡根本放不下，因而需要把模型进行拆分放到不同的卡上。

2）数据并行。数据并行通常用于训练数据非常庞大的时候，比如有几百万张图像用于训练模型。此时，如果只用一张卡来进行训练，那么训练时间就会非常的长。并且由于单卡显存的限制，训练时的batch size不能设置得过大。但是，对于很多模型的性能而言，由于BN层的使用，都会和batch size的大小正相关。此外，很多基于对比学习的训练算法，由于其对负样本的需求，性能也与batch size的大小正相关。因此，我们需要使用多卡训练，不仅可以训练加速，并且可以设置更大的batch size来提升性能。

2. 数据并行

在Pytorch中有两种方式来实现数据并行：

1）数据并行（DataParallel，DP）。DataParallel采用参数服务器架构，其训练过程是单进程的。在训练时，会将一块GPU作为server，其余的GPU作为worker，在每个GPU上都会保留一个模型的副本用于计算。训练时，首先将数据拆分到不同的GPU上，然后在每个worker上分别进行计算，最终将梯度汇总到server上，在server进行模型参数更新，然后将更新后的模型同步到其他GPU上。这种方式有一个很明显的弊端，作为server的GPU其通信开销和计算成本非常大。它需要和其他所有的GPU进行通信，并且梯度汇总、参数更新等步骤都是由它完成，导致效率比较低。并且，随着多卡训练的GPU数量增强，其通信开销也会线性增长。

Parameter Server架构

不过DataParallel的代码十分简洁，仅需在原有单卡训练的代码中加上一行即可。

model = nn.DataParallel(model)

如果你的数据集并不大，只有几千的规模，并且你多卡训练时的卡也不多，只有4块左右，那么DataParallel会是一个不错的选择。

关于Parameter Server更详细的原理介绍，可以参考：

深度学习加速：算法、编译器、体系结构与硬件设计

一文讀懂「Parameter Server」的分布式機器學習訓練原理

2）分布式数据并行（DistributedDataParallel，DDP）。DDP采用Ring-All-Reduce架构，其训练过程是多进程的。如果要用DDP来进行训练，我们通常需要修改三个地方的代码：数据读取器dataloader，日志输出print，指标评估evaluate。其代码实现略微复杂，不过我们只需要始终牢记