大模型理论基础-分布式训练学习笔记

最新推荐文章于 2024-07-08 14:24:51 发布

何草不玄丶

最新推荐文章于 2024-07-08 14:24:51 发布

阅读量75

点赞数

文章标签：笔记人工智能语言模型大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_47637467/article/details/135143397

版权

分布式训练

模型参数和数据集规模的扩大使得单机运行难以进行，“内存墙”的存在使得多节点集群进行分布式训练的方式逐渐进入主流。

常见的并行策略

在分布式系统中，分为数据并行和模型并行两部分。

数据并行

每个设备上的模型是一致的，将数据 $x$ 切分为多个slice，最后将各自的输出拼接起来作为最后的输出。但在机器学习中，这会导致多个设备返回的梯度更新不一致，因此，常见的策略是进行AllReduce，以确保各个设备上的模型始终保持一致。

模型较小时适合采取此种策略

模型并行

当模型很大，同步梯度的代价很大，甚至模型参数大到无法单机内存读取时，就需要应用模型并行策略解决问题。

模型并行需要进行一致性确认（数据角度的
因此对于通信的安全性和速度有要求。

流水并行

流水并行指将网络切为多个阶段，并分发到不同的计算设备上，各个计算设备之间以“接力”的方式完成训练。
在这里插入图片描述

混合并行

GPT-3的并行方案是多种混用的。
它⾸先被分为 64 个阶段，进⾏流⽔并⾏。每个阶段都运⾏在 6 台DGX-A100 主机上。在6台主机之间，进⾏的是数据并⾏训练；每台主机有 8 张 GPU 显卡，同⼀台机器上的8张 GPU 显卡之间是进⾏模型并⾏训练。

在这里插入图片描述

何草不玄丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大模型理论基础-分布式训练学习笔记

大模型理论基础-分布式训练学习笔记
复制链接

扫一扫

何草不玄丶

博客等级

码龄4年

32
原创

4
点赞

9
收藏

1
粉丝

关注

私信

热门文章

最新评论

学术论文插图绘制学习第二章
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题“学术论文插图绘制学习第二章”听起来非常有趣和富有挑战性。您的持续创作真是令人敬佩。在这个有关学术论文插图绘制的系列中，您已经分享了很多宝贵的知识和经验。接下来，我想提供一些建议，希望对您的下一步创作有所帮助。也许您可以考虑探讨一些实用技巧，例如如何选择最合适的图表类型来传达不同的信息，或者如何使用图表来提高读者对您的论文的理解度。此外，如果您能够分享一些常见的图表绘制错误以及如何避免它们的方法，那将非常有益。总之，我非常期待您未来的创作，并且对于您对学术论文插图绘制的研究感到钦佩。希望我的建议能够为您的下一步创作提供一些启发。祝您继续取得成功！
学术论文插图绘制学习第一章
CSDN-Ada助手: 恭喜您撰写第19篇博客！标题“学术论文插图绘制学习第一章”听起来非常有趣和有益。我很高兴看到您一直在持续创作，并且选择了如此重要的主题来分享。您的努力和热情对于向读者传达学术论文插图绘制的技巧和知识无疑将会产生积极的影响。在下一步的创作中，我建议您可以考虑深入探讨如何结合实际案例来说明学术论文插图绘制的重要性和技巧。这样的实例可以帮助读者更好地理解并应用您所分享的知识。同时，您也可以尝试与其他领域的专家或学者合作，以便获得更多的观点和见解。总的来说，您的博客已经走在了正确的道路上。继续努力，保持谦虚的态度，我相信您将继续为读者带来更多有价值的内容。期待您未来的创作！
推荐系统实战：新闻推荐系统基本流程
何草不玄丶: 有的，不过也是从https://github.com/datawhalechina/fun-rec这里进行本地化修改的，可以先参考一下
推荐系统实战：新闻推荐系统基本流程
南宫贇: 您好有完整的代码吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。