卷友们好,我是rumor。
我直接好家伙。
午休摸鱼时打开Arxiv看每日更新,一下就被闪瞎了。

英伟达、斯坦福联合MSR,共同训出了10000亿参数的GPT,比1750亿的GPT3还高出了一个量级。

重要的是,这个训练用了3072个A100,一个售价约10万人民币,我都不敢换算。

Anyway,人穷志不穷,训不起,论文我还看不起吗?
题目:Efficient Large-Scale Language Model Training on GPU Clusters
地址:https://arxiv.org/pdf/2104.04473.pdf
代码:https://github.com/nvidia/megatron-lm
这篇论文讲了啥
这篇文章其实很工程,主要延续威震天的一些策略,继续探索了更大模型的分布式训练。
数据并行的方法很多同学都知道,就是每个worker上都加载全量模型,计算完不同数据后汇总更新。但在训练大模型的过程中,因为参数量的增多,不可避免的得进行模型并行,也就是把不同的层或者tensor放在不同机器上,这就需要server、GPU之间进行更多通讯,而由于各种原因,各种成本(比如通信时间、同步时间)都会呈几倍增长,直接影响到训练速度。
所以,如何组合各个分布式训练方法,最大化训练吞吐、同时保持训练效果是训练大模型的难点之一。
经过努力,英伟达成功地让通信速度的增长接近线性,效率比DeepSpeed框架高出不少。

遗憾的是,作者并没有展示这个语言模型的效果。
但从GPT3的成功来看,惊喜还是会有的,估计又要等到OpenAI来揭开了。
这样下去会被榨干吗
前段时间我一度觉得做更大更强的模型这条路是不可行的,一是以这种暴力方式训下去总有饱和的时候,二是即使浪费那么多资源训出来的模型在实际场景也用不上。
但我今天又有一些新的思考,虽然预见大transformer模型的表现可能会有饱和的一天,但目前并不知道这个天花板在哪里,说不定我们现在还在山脚或者山腰上,这些资金耗费巨大的预训练去探索上界还是有价值的。另外,GPT-3已经在一些场景上进行落地了,我甚至想能不能直接输入任务描述,让GPT-3给我输出一批训练数据,说不定也可以。
方向不同,各有千秋。不断突破现有模型的天花板是有价值的,做出性价比高的小模型也是有价值的。
大家好我是rumor
一个热爱技术,有一点点幽默的妹子
欢迎关注我
带你学习带你肝
一起在人工智能时代旋转跳跃眨巴眼
「GPT-4指日可待」