From Sparse to Soft Mixtures of Experts

515 篇文章 3 订阅

已下架不支持订阅

本文是LLM系列的文章,针对《From Sparse to Soft Mixtures of Experts》的翻译。

摘要

稀疏混合专家体系结构(MoE)规模模型容量,而不会大幅增加训练或推理成本。尽管MoE取得了成功,但仍存在许多问题:训练不稳定、token丢失、无法扩大专家数量或微调无效。在这项工作中,我们提出了Soft MoE,这是一种完全可微的稀疏Transformer,它解决了这些挑战,同时保持了MoE的优势。软MoE通过将所有输入token的不同加权组合传递给每个专家来执行隐含的软分配。与其他MoE工作一样,软MoE的专家只处理(组合的)token的子集,从而以更低的推理成本实现更大的模型容量。在视觉识别方面,Soft MoE大大优于标准Transformer(ViTs)和流行的MoE变体(token选择和专家选择)。例如,Soft MoE Base/16需要比ViT Huge/14低10.5倍的推理成本(5.7倍的挂钟时间),同时在类似训练后匹配其性能。软MoE的扩展性也很好:在16个MoE层中拥有128名专家的软MoE Huge/14的参数比ViT Huge/14多了40倍以上,而推理时间成本仅增长了2%,而且性能要好得多。

1 引言

2 软混合专家

3 图像分类实验

4 对比学习实验

5 模型检查

6 讨论

稀疏模型可能面临基础设施方面的挑战&

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

已下架不支持订阅

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值