1.6万亿参数你怕了吗?谷歌大脑发布语言模型 Switch Transformer,速度碾压T5

【编者按】『四个参数画大象,五个参数鼻子晃』 著名实验和理论物理学家、诺奖得主费米曾经这样引用冯诺依曼的话:“四个参数,我就能拟合出一个大象出来,用五个参数我就能让他的鼻子摆动”。看似是个玩笑,实际上真的有一篇论文研究绘制大象,只是时间是在 2010 年。机器学习当中,参数越多,理论上的精度越高(也极易产生过拟合),当然需要的算力也更多,GPT-3 使用了惊人的 1750 亿参数,堪称史上最大 AI 模型,没想到这才多久,Google Brain 团队就搞了一个大新闻,他们使用了 1.6 万亿参数推出了语言模型 Switch Transformer,比 T5 模型当中的 T5-XXL 模型还要快 4 倍,比基本的 T5 模型快了 7 倍。

作者 | 八宝粥
出品 | CSDN (id:CSDNnews)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TCpaC3ft-1610539820570)(image/20210113_164325_86.png)]

近日,Google Brain 团队在预印本发布论文《SWITCH TRANSFORMERS: SCALING TO TRILLION PARAMETER MODELS WITH SIMPLE AND EFFICIENT SPARSITY》,宣布利用万亿级参数进行预训练的稀疏模型 SWITCH TRANSFORMERS 的诞生,该方法可以在控制通信和计算资源的情况下提升训练的稳定性,同等计算资源条件下比 T5-XXL 模型快 4 倍。

来自 Google Brain 的三位科学家 William Fedus、Barret Zoph 以及 Noam Shazeer 使用了 Switch Transformer 模型,简化了 MOE 的路由算法、设计了直观的改进模型,从而实现了通信和计算成本的降低。值得期待的是,这种训练方法修复了不稳定性,并且首次展示了大型稀疏模型在低精度(bfloat 16)

  • 23
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 26
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 26
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值