1.6万亿参数你怕了吗?谷歌大脑发布语言模型 Switch Transformer,速度碾压T5

Google Brain团队发布Switch Transformer模型,拥有1.6万亿参数,比T5快4-7倍。该模型基于Mixture-of-Experts(MOE)理念,解决了MOE的通信成本和训练不稳定性问题,可在低精度格式下训练,实现高效能和大模型的平衡。
摘要由CSDN通过智能技术生成

【编者按】『四个参数画大象,五个参数鼻子晃』 著名实验和理论物理学家、诺奖得主费米曾经这样引用冯诺依曼的话:“四个参数,我就能拟合出一个大象出来,用五个参数我就能让他的鼻子摆动”。看似是个玩笑,实际上真的有一篇论文研究绘制大象,只是时间是在 2010 年。机器学习当中,参数越多,理论上的精度越高(也极易产生过拟合),当然需要的算力也更多,GPT-3 使用了惊人的 1750 亿参数,堪称史上最大 AI 模型,没想到这才多久,Google Brain 团队就搞了一个大新闻,他们使用了 1.6 万亿参数推出了语言模型 Switch Transformer,比 T5 模型当中的 T5-XXL 模型还要快 4 倍,比基本的 T5 模型快了 7 倍。

作者 | 八宝粥
出品 | CSDN (id:CSDNnews)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TCpaC3ft-1610539820570)(image/20210113_164325_86.png)]

近日,Google Brain 团队在预印本发布论文《SWITCH TRANSFORMERS: SCALING TO TRILLION PARAMETER MODELS WITH SIMPLE AND EFFICIENT SPARSITY》,宣布利用万亿级参数进行预训练的稀疏模型 SWITCH TRANSFORMERS 的诞生,该方法可以在控制通信和计算资源的情况下提升训练的稳定性,同等计算资源条件下比 T5-XXL 模型快 4

评论 26
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值