训练GPT-3，为什么原有的深度学习框架吃不消？

OneFlow深度学习框架

于 2021-05-28 10:26:29 发布

阅读量532

点赞数

分类专栏：前沿技术文章标签：自然语言处理深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OneFlow_Official/article/details/117354371

版权

最近，OneFlow工程师成诚发布了一篇《GPT-3模型为何难以复现？这也许是分布式AI框架的最优设计》，文章非常详细地提到深度学习框架面临的分布式训练难题，相信算法工程师都会碰到，强烈建议读一读。

本文将重点梳理深度学习框架在支持大规模预训练模型时面临的技术挑战，以及当前各类框架的基本解决思路，帮助算法工程师对业界各类框架的分布式训练能力有更清晰的认知。

撰文 | 袁进辉

近年来，深度学习被广泛应用到各个领域，包括计算机视觉、语言理解、语音识别、广告推荐等。在这些不同领域中，一个共同的特点就是模型规模越来越大，比如GPT-3模型的参数量达到1750亿，即便拥有1024张80GB A100，那么完整训练GPT-3的时长都需要1个月。大规模预训练模型及其训练成为业界尤为关注的热点。

那么，模型规模变大带来了哪些挑战？首先是硬件发展水平导致的内存墙问题。单一设备的算力及内存容量，受限于物理定律，持续提高芯片的集成越来越困难，难以满足大模型规模扩大的需要。为了解决算力增速不足的问题，人们考虑通过使用多节点集群进行分布式训练来提升算力，分布式训练则势在必行。

大型Transformer模型参数量和计算设备内存最近5年的增长速度

但是，简单的机器堆叠并不一定可以获取算力的增长，因为内存的带宽增长速率也大大落后于算力增长，跨计算设备之间的网络带宽更低，使得数据搬运成为整个训练的瓶颈，进而导致训练效率大大下降。

Transformer及计算机视觉、自然

最低0.47元/天解锁文章

OneFlow深度学习框架

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
训练GPT-3，为什么原有的深度学习框架吃不消？

本文将重点梳理深度学习框架在支持大规模预训练模型时面临的技术挑战，以及当前各类框架的基本解决思路，帮助算法工程师对业界各类框架的分布式训练能力有更清晰的认知。
复制链接

扫一扫

专栏目录

OneFlow深度学习框架

博客等级

码龄4年

企业官方账号

337
原创

1996
点赞

3110
收藏

5327
粉丝

关注

私信

热门文章

分类专栏

最新评论

OpenAI首席科学家：通向无监督学习之路
K_Code_King: 主要是知识储备，他很多话背后都隐藏着很多深度的思考和知识，不具备足够的知识储备，根本理解不了
SiliconCloud公测上线，每人免费送3亿Token
OneFlow深度学习框架: 可说呢，OpenAI的模型是最强的
SiliconCloud公测上线，每人免费送3亿Token
BossFriday: 简单试用了下文本对话，文生成图。和OpenAI对比起来差很多，不过都还是能用的。
LLaMA 3：大模型之战的新序幕
YesPMPYesPMP: 互联网众包平台Yespmp，帮助项目实现落地。平台提供全方位的服务，包括IT项目开发、运营推广、创意设计、灵活用工等多个领域。它为项目发包方和接包服务商提供了一个交流和合作的平台，帮助双方找到合适的合作伙伴，解决项目管理中的各种痛点，如项目风险高、成本和进度控制困难等。同时，平台还提供项目监理、开发工具包、虚拟课堂等支持，帮助项目从设计到开发再到运营的整个周期顺利实施。
OpenAI首席科学家：直面AGI的可能性
weixin_55183196: 支持，哪怕未来世界有AI主宰，这就是自然。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。