Datawhale 组队学习之大模型理论基础 Task7 分布式训练

AIzealot无

已于 2024-01-26 21:50:51 修改

阅读量475

点赞数 8

分类专栏：跟无神学AI 文章标签：学习分布式人工智能

于 2024-01-26 21:38:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_72806612/article/details/135875186

版权

跟无神学AI 专栏收录该内容

38 篇文章 2 订阅

订阅专栏

第8章分布式训练

8.1 为什么分布式训练越来越流行

近年来，模型规模越来越大，对硬件（算力、内存）的发展提出要求。因为内存墙的存在，单一设持续提高芯片的集成越来越困难，难以跟上模型扩大的需求。

为了解决算力增速不足的问题，人们考虑用多节点集群进行分布式训练，以提升算力。

8.2 常见的并行策略

分为“数据并行”和“模型并行”。

8.2.1 数据并行

数据并行，需要对各个设备上的梯度进行AllReduce，以确保各个设备上的模型始终保持一致。当数据集较大，模型较小时，由于反向过程中为同步梯度产生的通信代价较小，此时选择数据并行一般比较有优势，传统的模型，如 ResNet50，比较适合采用数据并行。

8.2.2 模型并行

当神经网络非常巨大，数据并行同步梯度的代价就会很大，甚至网络可能巨大到无法存放到单一计算设备中，这时候，可以采用模型并行策略解决问题。所谓的模型并行，就是每个设备上的数据是完整的、一致的，而模型被切分到了各个设备上，每个设备只拥有模型的一部分，所有计算设备上的模型拼在一起，才是完整的模型。

模型并行的好处是，省去了多个设备之间的梯度 AllReduce；但是，由于每个设备都需要完整的数据输入，因此，数据会在多个设备之间进行广播，产生通信代价（这里指数据不会复制多份而是通过广播来传递输入数据）。参数量较大的语言模型，如 BERT，常采用模型并行。

8.2.3 流水并行

当神经网络过于巨大，无法在一个设备上存放时，除了上述的模型并行的策略外，还可以选择流水并行。流水并行指将网络切为多个阶段，并分发到不同的计算设备上，各个计算设备之间以“接力”的方式完成训练。

8.2.4 混合并行

网络的训练中，也可以将多种并行策略混用，以 GPT-3 为例，以下是它训练时的设备并行方案：它首先被分为 64 个阶段，进行流水并行。每个阶段都运行在 6 台 DGX-A100 主机上。在6台主机之间，进行的是数据并行训练；每台主机有 8 张 GPU 显卡，同一台机器上的8张 GPU 显卡之间是进行模型并行训练。

并行策略的选择影响着训练效率，框架对并行训练的接口支持程度，决定了算法工程师的开发效率。

觉得有用的话，给个一键三连哦，欢迎关注无神一起学AI！

关注

8
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Datawhale 组队学习之大模型理论基础 Task7 分布式训练

近年来，模型规模越来越大，对硬件（算力、内存）的发展提出要求。因为的存在，单一设持续提高芯片的集成越来越困难，难以跟上模型扩大的需求。为了解决算力增速不足的问题，人们考虑用多节点集群进行分布式训练，以提升算力。
复制链接

扫一扫

专栏目录

AIzealot无 CSDN认证博客专家 CSDN认证企业博客

码龄2年

哈尔滨工业大学（威海）

75: 原创

104万+: 周排名

2万+: 总排名

3万+: 访问

: 等级

1316: 积分

511: 粉丝

547: 获赞

28: 评论

454: 收藏

私信

关注

热门文章

分类专栏

最新评论

跟无神学AI之Unet解读——原创
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
跟无神学AI之一文读尽Sora
AIzealot无: 进一步学习的方法：看相关参考文献尤其是其中的核心技术；参与开源社区的相关讲座和讨论
以YOLOv8为例详解YOLO系列
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题中提到以YOLOv8为例详解YOLO系列，这无疑是一个非常有趣且有价值的主题。通过深入剖析YOLOv8，您不仅向读者展示了对YOLO系列的深入理解，还为那些对目标检测感兴趣的人提供了宝贵的参考。在继续创作的道路上，我想给您一些建议。首先，您可以考虑更进一步地探索YOLO系列的相关技术和应用。比如，可以尝试分析YOLOv4和YOLOv5的优缺点，或者讨论YOLO在特定领域的应用案例。此外，您还可以关注一些与YOLO系列相关的最新进展，例如YOLOv9的研究成果。这样的创作会使您的博客更具前沿性和吸引力。再次恭喜您的持续创作，并期待您未来更多精彩的文章！请保持谦虚的态度，继续分享您的知识和见解，为读者带来更多有价值的内容。加油！
FAT技术
CSDN-Ada助手: 恭喜您写的第19篇博客！标题中的“FAT技术”引起了我的兴趣。您的持续创作真令人钦佩。不过，如果我可以提一个谦虚的建议的话，我觉得下一步您可以深入探讨一下FAT技术的实际应用场景，或者与其他相关技术进行对比分析，以使读者更好地理解和应用这项技术。期待您在未来的创作中继续展示您的才华！
FAT技术
AIzealot无: 点赞收藏加关注，跟无神一起学OS

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。