分布式
文章平均质量分 71
爱串门的小马驹
ai分布式,通信,大模型,人工智能框架,大规模集群学习分享,不定期更新
展开
-
ZeRO++ 分布式数据并行 视频教程 《ZeRO++: Extremely Efficient Collective Communication for Large Model Training》
ZeRO++ 数据并行出现的原因,和他的优化策略。并且介绍了数据并行 DP DDP ZeRO1 ZeRO2 ZeRO3。《ZeRO++: Extremely Efficient Collective Communication for Large Model Training》数据并行模型训练原创 2024-05-01 18:48:46 · 351 阅读 · 2 评论 -
DeepSpeed和Megatron如何调用NCCL通信后端源码解读
原本准备看一下DeepSpeed如何对接使用NCCL的,如何初始化通信后端的,没想到。瞬间傻在原地。原创 2024-05-10 20:29:27 · 1043 阅读 · 0 评论