10000亿参数!英伟达用3072块A100训出史上最大最贵GPT!我直接好家伙

卷友们好,我是rumor。

我直接好家伙。

午休摸鱼时打开Arxiv看每日更新,一下就被闪瞎了。

c06933d6790c3cf7d2eb1723f0cd100c.png

英伟达、斯坦福联合MSR,共同训出了10000亿参数的GPT,比1750亿的GPT3还高出了一个量级

5cd552d2ec7c2a6c1fc21c34eb71cdf7.png

重要的是,这个训练用了3072个A100,一个售价约10万人民币,我都不敢换算。

17bf4870f7b27002b373ab81e10c9409.png

Anyway,人穷志不穷,训不起,论文我还看不起吗?

题目:Efficient Large-Scale Language Model Training on GPU Clusters
地址:https://arxiv.org/pdf/2104.04473.pdf
代码:https://github.com/nvidia/megatron-lm

这篇论文讲了啥

这篇文章其实很工程,主要延续威震天的一些策略,继续探索了更大模型的分布式训练。

数据并行的方法很多同学都知道,就是每个worker上都加载全量模型,计算完不同数据后汇总更新。但在训练大模型的过程中,因为参数量的增多,不可避免的得进行模型并行,也就是把不同的层或者tensor放在不同机器上,这就需要server、GPU之间进行更多通讯,而由于各种原因,各种成本(比如通信时间、同步时间)都会呈几倍增长,直接影响到训练速度。

所以,如何组合各个分布式训练方法,最大化训练吞吐、同时保持训练效果是训练大模型的难点之一。

经过努力,英伟达成功地让通信速度的增长接近线性,效率比DeepSpeed框架高出不少

371bd94c5d670875476db3463951d9bc.png

遗憾的是,作者并没有展示这个语言模型的效果。

但从GPT3的成功来看,惊喜还是会有的,估计又要等到OpenAI来揭开了。

这样下去会被榨干吗

前段时间我一度觉得做更大更强的模型这条路是不可行的,一是以这种暴力方式训下去总有饱和的时候,二是即使浪费那么多资源训出来的模型在实际场景也用不上。

但我今天又有一些新的思考,虽然预见大transformer模型的表现可能会有饱和的一天,但目前并不知道这个天花板在哪里,说不定我们现在还在山脚或者山腰上,这些资金耗费巨大的预训练去探索上界还是有价值的。另外,GPT-3已经在一些场景上进行落地了,我甚至想能不能直接输入任务描述,让GPT-3给我输出一批训练数据,说不定也可以。

方向不同,各有千秋。不断突破现有模型的天花板是有价值的,做出性价比高的小模型也是有价值的。

51efe76fcd472fbe90cd7d83fd844862.png


大家好我是rumor

一个热爱技术,有一点点幽默的妹子

欢迎关注我

带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「GPT-4指日可待」afa1a356b7ebd0b9365dfc05b89807f0.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值