本文是LLM系列的文章,针对《From Sparse to Soft Mixtures of Experts》的翻译。
摘要
稀疏混合专家体系结构(MoE)规模模型容量,而不会大幅增加训练或推理成本。尽管MoE取得了成功,但仍存在许多问题:训练不稳定、token丢失、无法扩大专家数量或微调无效。在这项工作中,我们提出了Soft MoE,这是一种完全可微的稀疏Transformer,它解决了这些挑战,同时保持了MoE的优势。软MoE通过将所有输入token的不同加权组合传递给每个专家来执行隐含的软分配。与其他MoE工作一样,软MoE的专家只处理(组合的)token的子集,从而以更低的推理成本实现更大的模型容量。在视觉识别方面,Soft MoE大大优于标准Transformer(ViTs)和流行的MoE变体(token选择和专家选择)。例如,Soft MoE Base/16需要比ViT Huge/14低10.5倍的推理成本(5.7倍的挂钟时间),同时在类似训练后匹配其性能。软MoE的扩展性也很好:在16个MoE层中拥有128名专家的软MoE Huge/14的参数比ViT Huge/14多了40倍以上,而推理时间成本仅增长了2%,而且性能要好得多。
1 引言
2 软混合专家
3 图像分类实验
4 对比学习实验
5 模型检查
6 讨论
稀疏模型可能面临基础设施方面的挑战&