零冗余优化器技术(Zero Redundancy Optimizer),是微软提出的一种优化大规模深度学习模型训练的技术。ZeRO的目标是通过减少冗余,提高模型训练的内存效率,从而使得更大的模型可以在有限的硬件资源上进行训练。
ZeRO主要包括三个级别的优化:ZeRO-1,ZeRO-2和ZeRO-3,每个级别都在前一个级别的基础上进行了进一步的优化。
-
ZeRO-1:优化器状态分区(Optimizer State Partitioning) 在传统的数据并行训练中,每个设备都会保存一份完整的模型参数和优化器状态,这会导致内存的大量浪费。ZeRO-1通过在设备间分布式存储优化器状态,从而显著减少了内存的使用。
-
ZeRO-2:优化器状态分区 + 梯度分区(Optimizer State Partitioning + Gradient Partitioning) 在ZeRO-1的基础上,ZeRO-2进一步将梯度也进行了分区存储。这样,每个设备只需要保存一部分的优化器状态和梯度,从而进一步减少了内存的使用。这使得我们可以在相同的硬件上训练更大的模型,或者在更小的硬件上训练相同的模型。
-
ZeRO-3:优化器状态分区 + 梯度分区 + 参数分区(Optimizer State Partitioning + Gradient Partitioning + Parameter Partitioning) ZeRO-3是ZeRO的最高级别的优化。除了优化器状态和梯度,ZeRO-3还将模型参数进行了分区存储。这样,每个设备只需要保存一部分的优化器状态、梯度和模型参数,从而最大限度地减少了内存的使用。
微软的DeepSpeed实现了这些技术,具体代码在utils包中,部分重要代码可以在这里读到:
https://github.com/microsoft/DeepSpeed/blob/master/deepspeed/utils/zero_to_fp32.py