1.6万亿参数你怕了吗？谷歌大脑发布语言模型 Switch Transformer，速度碾压T5

最新推荐文章于 2024-03-30 07:05:10 发布

技术视野

最新推荐文章于 2024-03-30 07:05:10 发布

阅读量1.9w

点赞数 23

分类专栏：综合资讯文章标签：机器学习

本文链接：https://blog.csdn.net/csdndevelopers/article/details/112587816

版权

Google Brain团队发布Switch Transformer模型，拥有1.6万亿参数，比T5快4-7倍。该模型基于Mixture-of-Experts（MOE）理念，解决了MOE的通信成本和训练不稳定性问题，可在低精度格式下训练，实现高效能和大模型的平衡。

摘要由CSDN通过智能技术生成

【编者按】『四个参数画大象，五个参数鼻子晃』著名实验和理论物理学家、诺奖得主费米曾经这样引用冯诺依曼的话：“四个参数，我就能拟合出一个大象出来，用五个参数我就能让他的鼻子摆动”。看似是个玩笑，实际上真的有一篇论文研究绘制大象，只是时间是在 2010 年。机器学习当中，参数越多，理论上的精度越高（也极易产生过拟合），当然需要的算力也更多，GPT-3 使用了惊人的 1750 亿参数，堪称史上最大 AI 模型，没想到这才多久，Google Brain 团队就搞了一个大新闻，他们使用了 1.6 万亿参数推出了语言模型 Switch Transformer，比 T5 模型当中的 T5-XXL 模型还要快 4 倍，比基本的 T5 模型快了 7 倍。

作者 | 八宝粥
出品 | CSDN (id:CSDNnews)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TCpaC3ft-1610539820570)(image/20210113_164325_86.png)]

近日，Google Brain 团队在预印本发布论文《SWITCH TRANSFORMERS: SCALING TO TRILLION PARAMETER MODELS WITH SIMPLE AND EFFICIENT SPARSITY》，宣布利用万亿级参数进行预训练的稀疏模型 SWITCH TRANSFORMERS 的诞生，该方法可以在控制通信和计算资源的情况下提升训练的稳定性，同等计算资源条件下比 T5-XXL 模型快 4