Large Language Model系列之三:大模型并行训练(Parallel Training of Large Language Models)
1 各类并行算法
参考资料:
1 大模型并行训练
2 ZeRO(Zero Redundancy Optimizer)零冗余优化
ZeRO(Zero Redundancy Optimizer)是由微软研究院开发的一种内存优化技术,专门设计用于优化大规模深度学习模型的训练过程。ZeRO的核心原理是通过减少内存冗余来提高训练效率,使得可以在有限的硬件资源上训练更大的模型。
以常用的Adam优化器为例,