NLP炼丹笔记：Switch Transformers 朴实无华大招秒杀-CSDN博客

本文链接：https://blog.csdn.net/m0_52122378/article/details/113354986

Switch Transformer是Google Brain提出的一种简化稀疏架构，可扩展到1.6万亿参数，通过Sparse routing减少计算需求，提高训练效率。模型采用数据并行、模型并行、Expert并行策略，降低通信开销，解决了大规模MoE模型的训练难题。Switch Transformer在多个任务上表现出性能提升，预训练速度提升7倍以上。

摘要由CSDN通过智能技术生成

作者：九羽，公众号：炼丹笔记

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

Google Brain科学家Barret Zoph表示，他们设计了一个名叫「Switch Transformer」的简化稀疏架构，可以将语言模型的参数量扩展至 1.6 万亿。万万没想到，模型规模的演进如此之快，没几个月的时间，就从千亿走向了万亿，当我们还在研究BERT的各种迭代时，世界上那批顶尖的人已经开启了另一扇“暴力美学”的大门。而这，才是真正的深度领域的“军备竞赛“。

对于长文没有阅读习惯的朋友，可以直接读一下本文摘要。

1）Switch Transformer在网络结构上最大的改进是Sparse routing的稀疏结构，相比于OpenAI在GPT-3里所使用的Sparse Attention，需要用到稀疏算子而很难发挥GPU、TPU硬件性能的问题。Switch Transformer不需要稀疏算子，可以更好的适应GPU、TPU等硬件

2）Switch Transformer虽然有1.6万亿参数，但通过Sparse routing的改进，每轮迭代只会触发部分Expert的计算，而每个token也只会路由给一个Expert，所以对算力的需求并没有随着参数量的增加而大幅增长，使得这个模型更加容易训练。

3）数据并行、模型并行、Expert并行的并行策略设计，在MoE网络结构上能够获得更低的通信开销，提高并行的效率。