10000亿参数！英伟达用3072块A100训出史上最大最贵GPT！我直接好家伙

最新推荐文章于 2025-01-31 01:54:19 发布

李rumor

最新推荐文章于 2025-01-31 01:54:19 发布

阅读量447

点赞数

文章标签：分布式人工智能机器学习深度学习 tensorflow

本文链接：https://blog.csdn.net/m0_37310036/article/details/122205659

版权

卷友们好，我是rumor。

我直接好家伙。

午休摸鱼时打开Arxiv看每日更新，一下就被闪瞎了。

英伟达、斯坦福联合MSR，共同训出了10000亿参数的GPT，比1750亿的GPT3还高出了一个量级。

重要的是，这个训练用了3072个A100，一个售价约10万人民币，我都不敢换算。

Anyway，人穷志不穷，训不起，论文我还看不起吗？

题目：Efficient Large-Scale Language Model Training on GPU Clusters
地址：https://arxiv.org/pdf/2104.04473.pdf
代码：https://github.com/nvidia/megatron-lm

这篇论文讲了啥

这篇文章其实很工程，主要延续威震天的一些策略，继续探索了更大模型的分布式训练。

数据并行的方法很多同学都知道，就是每个worker上都加载全量模型，计算完不同数据后汇总更新。但在训练大模型的过程中，因为参数量的增多，不可避免的得进行模型并行，也就是把不同的层或者tensor放在不同机器上，这就需要server、GPU之间进行更多通讯，而由于各种原因，各种成本（比如通信时间、同步时间）都会呈几倍增长，直接影响到训练速度。

所以，如何组合各个分布式训练方法，最大化训练吞吐、同时保持训练效果是训练大模型的难点之一。

经过努力，英伟达成功地让通信速度的增长接近线性，效率比DeepSpeed框架高出不少。

遗憾的是，作者并没有展示这个语言模型的效果。

但从GPT3的成功来看，惊喜还是会有的，估计又要等到OpenAI来揭开了。

这样下去会被榨干吗

前段时间我一度觉得做更大更强的模型这条路是不可行的，一是以这种暴力方式训下去总有饱和的时候，二是即使浪费那么多资源训出来的模型在实际场景也用不上。

但我今天又有一些新的思考，虽然预见大transformer模型的表现可能会有饱和的一天，但目前并不知道这个天花板在哪里，说不定我们现在还在山脚或者山腰上，这些资金耗费巨大的预训练去探索上界还是有价值的。另外，GPT-3已经在一些场景上进行落地了，我甚至想能不能直接输入任务描述，让GPT-3给我输出一批训练数据，说不定也可以。

方向不同，各有千秋。不断突破现有模型的天花板是有价值的，做出性价比高的小模型也是有价值的。