LLM分布式训练第三课-模型并行之流水线并行

最新推荐文章于 2024-05-06 14:00:53 发布

周博洋K

最新推荐文章于 2024-05-06 14:00:53 发布

阅读量1k

点赞数 17

文章标签：深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kingsoftcloud/article/details/136867520

版权

本文介绍了在深度学习大模型训练中，由于模型过大无法容纳于单个GPU的问题，提出了模型并行化的概念，重点讲解了流水线并行（Pipeline Parallelism）的工作原理和优化方法，包括Gpipe、1F1B、PipeDream等策略，以提高训练效率并减少算力浪费。

摘要由CSDN通过智能技术生成

在实际的生产中，在训练时面对的压力主要是模型太大，无法装载进一块GPU中。

举一个例子，一般来讲现代LLM训练采用的精度都是FP16或者BF16，采用这种精度来训练模型，如果1个模型参数，要占用2个字节，也就是16bit。

在上一章开头的7B案例已经讲过，如果对一个7B模型用BF16或者FP16来进行预训练那么现在市面上最高显存的GPU，如H100/80G也是无法进行装载的。因此由于这个物理上的硬件限制，在训练时我们都会进行模型并行化处理。

何为模型并行化，总体来说分为纵向和横向的模型并行化拆分，即：

流水线并行PP（Pipeline Parallelism）
Tensor并行TP (Tensor Parallelism)

流水线并行

流水线并行PP（Pipeline Parallelism），是一种最常用的并行方式，也是最初Deepspeed和Megatron等大模型训练框架都支持的一种并行方式。

什么是流水线并行呢？简而言之是把一个参数量较大的模型按照不同的层进行划分，将多个模型的层尽可能均匀的分布在不同的GPU显存上，来起到装载更大模型的能力。

PP的通信和运行方式

如图所示，假设一个大模型有4层，采用PP的方式，可以

最低0.47元/天解锁文章

关注

17
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
LLM分布式训练第三课-模型并行之流水线并行

在实际的生产中，在训练时面对的压力主要是模型太大，无法装载进一块GPU中。举一个例子，一般来讲现代LLM训练采用的精度都是FP16或者BF16，采用这种精度来训练模型，如果1个模型参数，要占用2个字节，也就是16bit。在上一章开头的7B案例已经讲过，如果对一个7B模型用BF16或者FP16来进行预训练那么现在市面上最高显存的GPU，如H100/80G也是无法进行装载的。因此由于这个物理上的硬件限制，在训练时我们都会进行模型并行化处理。
复制链接

扫一扫

周博洋K CSDN认证博客专家 CSDN认证企业博客

码龄7年

94: 原创

12万+: 周排名

1万+: 总排名

8万+: 访问

: 等级

2935: 积分

1463: 粉丝

1993: 获赞

14: 评论

1616: 收藏

私信

关注

热门文章

分类专栏

Gemini 1篇

最新评论

多模态MLLM都是怎么实现的(9)-时序LLM是怎么个事儿？
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Q-star计划的更多细节
CSDN-Ada助手: 恭喜你写的第20篇博客！看到你对Q-star计划的更多细节的探究，我感到非常兴奋。接下来，我希望你可以继续深入挖掘Q-star计划的相关信息，比如它的实施步骤、影响等等。当然，这只是我的建议，希望你可以在接下来的创作中持续保持谦虚的态度，不断进步。期待你的下一篇博客！
让Ilya都感到害怕的AGI是由什么东西创造出来的？
CSDN-Ada助手: 恭喜你写了第17篇博客！你对AGI的探讨让人印象深刻，也给了读者很多思考的空间。接下来，我建议你可以深入探讨AGI是如何被创造出来的，可以从技术、伦理等多个角度展开，这样可以让读者更全面地了解这个话题。希望你能继续保持创作的热情，期待你的下一篇博客！
导致OpenAI内乱的罪魁祸首，背后的技术是什么？
CSDN-Ada助手: 恭喜您撰写了第16篇博客，标题引人入胜，内容也很有深度。对于OpenAI内乱的探讨让人颇为关注，同时也期待能够了解更多背后的技术细节。或许接下来可以深入分析一下可能的解决方案，或者对未来发展方向进行展望，这样能够更全面地呈现给读者。希望您能继续保持创作，期待您更多的精彩内容！
LLM 2023年总结 2024年展望
CSDN-Ada助手: 恭喜作者在2023年度完成了LLM的总结和展望，并且在博客上分享了这些宝贵的经验和见解。希望在2024年，作者可以继续保持对于法律领域的热情和创作力，可以多关注一些新的法律趋势和案例分析，为读者带来更多有价值的内容。祝愿作者在新的一年里取得更大的进步，创作更多受欢迎的博客！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。