DeepSpeed之ZeRO系列:将显存优化进行到底
目录
收起
前言
ZeRO: 一种去除冗余的数据并行方案
背景
显存去哪了
通信数据量分析
ZeRO-Offload: 让人人都能训练得起大模型
背景
Offload策略
扩展性
ZeRO-Infinity: 利用NVMe打破GPU显存墙
背景
前言
目前训练超大规模语言模型主要有两条技术路线:TPU + XLA + TensorFlow/JAX 和 GPU + PyTorch + Megatron-LM + DeepSpeed。前者由Google主导,由于TPU和自家云平台GCP深度绑定,对于非Googler来说, 只可远观而不可把玩,后者背后则有NVIDIA、Meta、MS大厂加持,社区氛围活跃,也更受到群众欢迎。
上面提到的DeepSpeed的核心是ZeRO(Zero Redundancy Optimizer),简单来说,