分布式
文章平均质量分 79
爱串门的小马驹
ai分布式,通信,大模型,人工智能框架,大规模集群学习分享,不定期更新
展开
-
万卡(大规模)集群训练平台设计方案:集群容错、分布式方案、算法优化、通信加速、数据加载、底层 MegaScale: Scaling Large Language Model Training 视频教程
1.1 万卡训练集群出现原因、挑战、设计思路、考虑因素;1.2 万卡训练大语言模型LLM训练优化,并行注意力、滑动窗口;1.3 万卡分布式训练,ZeRO数据并行优化 1.6 通信与数据加载并行数据加载优化,消除多余加载器,数据加载通信并行原创 2024-05-30 19:16:56 · 780 阅读 · 0 评论 -
ZeRO++ 分布式数据并行 视频教程 《ZeRO++: Extremely Efficient Collective Communication for Large Model Training》
ZeRO++ 数据并行出现的原因,和他的优化策略。并且介绍了数据并行 DP DDP ZeRO1 ZeRO2 ZeRO3。《ZeRO++: Extremely Efficient Collective Communication for Large Model Training》数据并行模型训练原创 2024-05-01 18:48:46 · 88 阅读 · 2 评论 -
DeepSpeed和Megatron如何调用NCCL通信后端源码解读
原本准备看一下DeepSpeed如何对接使用NCCL的,如何初始化通信后端的,没想到。瞬间傻在原地。原创 2024-05-10 20:29:27 · 522 阅读 · 0 评论