如何超越数据并行和模型并行：从GShard谈起

OneFlow深度学习框架

于 2021-11-16 11:49:55 发布

阅读量3.5k

点赞数 3

文章标签： java 人工智能机器学习 python 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OneFlow_Official/article/details/121369361

版权

本文介绍了GShard的自动并行技术，该技术通过轻量级API和XLA编译器扩展实现大规模模型的并行训练。文章回顾了数据并行、模型并行的发展，讨论了GShard与其他自动并行方法的比较，指出GShard在张量切分抽象和命名方面存在的冗余和不完整性。同时，文章提出了OneFlow的SBP体系作为对比，强调了局部计算结果延迟规约的重要性，并指出GShard在多维划分概念的简洁性方面的不足。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

撰文 | 袁进辉

GShard的论文最早于2020.6.30放在arXiv上，包括《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (https://arxiv.org/pdf/2006.16668.pdf）》，还有一篇更系统的系统论文《GSPMD: General and Scalable Parallelization for ML Computation Graphs (https://arxiv.org/pdf/2105.04663.pdf)》。

文章内容主要包含两部分工作，一部分是并行API，一部分是Mixture of experts，比较有意思的是前一部分，我只讨论这部分，这部分的贡献在论文摘要里概括得很清楚：

GShard is a module composed of a set of lightweight annotation APIs and an extension to the XLA compiler.（GShard是由一组轻量级注释API和XLA编译器的扩展组成的模块。）

我也不打算过多介绍文章的细节，这些内容在原论文里都可以看到，只介绍一些背景信息，以及从OneFlow里做过的类似工作来评价一下GShard还有哪些可改进的地方。只有把GShard放在上下文里去看，才能更清楚地看到它的好和不好。

1

与GShard类似的工作带来的启发

这要从数据并行和模型并行说起，先列一下我知道的在GShard之前的相关工作。

1. One weird trick for parallelizing convolutional neural networks

这也许是最早探讨模型并行的文章，由Alex Krizhevsky (没错，就是AlexNet那位）在2014年发表在arXiv上（https://arxiv.org/pdf/1404.5997.pdf）。

这篇文章最大的洞见是发现不同的层适合用不同的并行方式。具体来说，卷积层数据比参数大，适合数据并行，全连接层参数比数据大，适合模型并行。

这最早是在cuda-convnet这个史前的深度学习框架上实现的，现在知道这套软件的人比较少了。

2. Exploring Hidden Dimensions in Parallelizing Convolutional Neural Networks

这篇由Zhihao Jia在2018年发在ICML（链接：https://cs.stanford.edu/~zhi

最低0.47元/天解锁文章

OneFlow深度学习框架

博客等级

码龄5年

企业官方账号

382
原创

2876
点赞

4170
收藏

5853
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

用初中数学理解LLM工作原理
Dongwoo Jeong: 我对中国的初中生感到威胁，因为我拥有韩国的“物理学硕士”学位。这很容易理解。不过，我想总结一下这篇文章的一些小遗憾：在开始之前，如果有一个关于LLM组件的简单概述，会更容易理解。对于初学者来说，应该先有概述再介绍，但一开始就直接介绍，让我很难知道自己正在学习LLM的哪一部分。 1. 归一化位置（Norm）在神经网络训练中，归一化用于提高稳定性和性能。 GPT主要使用预归一化结构（在激活函数之前应用归一化）。归一化分为后向和前向归一化。 2. 激活函数（Activation Function）激活函数为神经网络引入非线性，帮助学习模式（ReLU是典型代表）。 GPT使用GELU，它比ReLU具有更平滑的过渡模式。 3. 位置编码（Positional Encoding） Transformer模型与循环神经网络（RNN）不同，无法直接处理顺序信息，因此通过位置编码传递位置信息。 GPT最近使用RoPE（旋转位置编码）作为相对位置编码。 4. 注意力机制（Attention Mechanism）注意力机制从输入文本中提取重要部分的信息。 GPT使用带有因果掩码的自注意力机制（Causal Masking）。 5. 混合专家模型（MoE）混合专家模型通过创建多个“专家”抽象层，输入令牌由路由网络选择并传递给特定层。主流架构包括：仅编码器（Encoder-only，如BERT）仅解码器（Decoder-only，如GPT系列）编码器-解码器（Encoder-Decoder，如T5）如果有这样的概述就更好了。非常感谢您用非常易懂的方式解释了原理。
用初中数学理解LLM工作原理
云淡风轻2.0: 这文章就是用ai写的，你能看懂才怪了
用初中数学理解LLM工作原理
西格玛man: 为什么我看不懂中文，作者能再润色一下语言吗，太复杂了
Cerebras：挑战英伟达，全球最快AI推理芯片的“魔法”
uttyuiuoi: 一个实验产品和人家量产的对比
开源AI背后的商业密码
深圳王哥: 这篇文章真是干货满满，作者对技术细节的把握和解析非常到位，让我对这个主题有了更深入的理解。期待作者能分享更多这样的高质量内容！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。