提升和创新!10款最新创新混合专家模型(MoE)汇总!(附论文)

随着深度学习技术的不断发展,混合专家模型(MoE)已成为一种备受关注的新型模型,MoE通过结合多个专家模型来提高预测精度和泛化能力,从而在各种任务中表现出卓越的性能。

今天特意给大家整理了10个最新MoE模型,包含提高处理速度、增强模型泛化能力、简化模型架构等方面,大家可以认真研究一下!

1、DeepSeekMoE

论文:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

Deepseekmoe:在混合专家语言模型中走向最终的专家专业化

简述:本文提出了一个新架构DeepSeekMoE,它通过优化专家的选择和利用共享专家来捕捉普遍知识,加强了模型的专业化。在测试中,2亿参数的DeepSeekMoE就达到了GShard 29亿参数模型的水平,它的性能在16亿参数上也非常出色,与计算量更大的LLaMA2 70亿参数相当。推进到1450亿参数,DeepSeekMoE在减少了计算需求的同时,性能媲美或优于传统MoE模型。

图片

2、 Mixtral 8x7B

论文:Mixtral of Experts

专家组合

简述:本文提出了Mixtral 8x7B,这是一种稀疏专家混合 (SMoE) 语言模型,在数学、代码生成和多语言基准测试方面远远优于 Llama 2 70B,并提供了一个经过微调以遵循指令的模型 Mixtral 8x7B - Instruct,它在人类基准测试中超过了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B - 聊天模型。

图片

3、Flan-MoE

论文:Flan-MoE: Scaling Instruction-Finetuned Language Models with Sparse Mixture of Experts

Flan-MoE:使用稀疏的专家组合扩展指令微调语言模型

简述:本文介绍经过指令精调的FLAN-MoE模型,它超越了密集模型性能,最大的FLAN-MoE 32B在四个基准测试上优于FLAN-PALM 62B,同时计算量更低。这表明指令精调对MoE模型至关重要,FLAN-MoE的成功启示我们重新思考大规模、高性能语言模型的设计方法。

图片

4、SmartMoE

论文:SmartMoE:Efficiently Training Sparsely-Activated Models through Combining Offline and Online Parallelization

Smartmoe:通过离线和在线并行化相结合的方式高效训练稀疏激活模型

简述:本文提出了SMARTMOE,一种自动执行稀疏激活模型的分布式训练方法。它优化了混合并行训练,并通过一个静态池和一个在线选择池进行优化分配。研究人员使用数据敏感的性能预测方法来提前构建最优配置,并有一个高效搜索算法来动态选择最优的并行策略。在最多64个GPU的平台评估中,SMARTMOE将训练速度提高了高达1.88倍,超过了现有的先进系统FasterMoE。

图片

5、MoE-Mamba

论文:MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

MoE-Mamba:专家混合的高效选择性状态空间模型

简述:本文认为结合SSM和MoE的方法可以发挥出SSM的最大潜力,这一点在最新的基于SSM的模型Mamba上有所体现,它实现了媲美Transformer的优异性能。于是研究人员提出了MoE-Mamba模型,在减少 2.2 倍的训练步长的情况下达到与 Mamba 相同的性能,同时保留了 Mamba 相对于 Transformer 的推理性能增益。

图片

6、Soft MoE

论文:From Sparse to Soft Mixtures of Experts

从稀疏到软混合专家模型

简述:本文提出了Soft MoE,一种可微分的稀疏变换器,解决了传统MoE的挑战,同时保持其优势。这种方法让每个输入token按权重分配给不同的专家,并提升了模型容量与减少了推理时的计算需求。在处理视觉任务时,Soft MoE展现出了优越的性能,在更低的推理成本下实现了相似或更好的效果。特别是扩展至大规模(例如使用128个专家)时,它仍能在保持推理时间低增长的同时,显著提升性能。

图片

7、SE-MoE

论文:SE-MoE: A Scalable and Efficient Mixture-of-Experts Distributed Training and Inference System

SE-MoE:可扩展且高效的专家混合分布式训练和推理系统

简述:本文提出了一个针对MoE训练的系统SE-MoE,它使用2D预取和分层存储策略提升了并行效率。SE-MoE通过在单个节点上结合CPU-GPU内存,支持大于GPU内存的模型进行高效推理。在48个A100 GPU上,研究人员用SE-MoE在8天内成功训练了一个有12B参数的模型。在性能上,SE-MoE比当前最先进的DeepSpeed技术训练速度快33%,推理速度快13%,在不平衡的任务上,更是实现了64%的吞吐量提升,同时内存使用减少了18%。

图片

8、EdgeMoE

论文:EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models

EdgeMoE:基于 MoE 的大型语言模型的快速设备端推理

简述:本文提出了EdgeMoE,首个专为混合专家LLM设计的设备推理引擎,适用于稀疏LLM。EdgeMoE通过优化存储实现内存和计算效率,非专家权重存于内存,专家权重仅在激活时从外部存储提取,采用专家级位宽自适应和专家管理两项技术减少I/O开销。实证评估显示,EdgeMoE相比竞品有显著内存节省和性能提升。

图片

9、BA-MoE

论文:BA-MoE: Boundary-Aware Mixture-of-Experts Adapter for Code-Switching Speech Recognition

BA-MoE:用于代码切换语音识别的边界感知混合专家适配器

简述:本文提出了一种跨层语言适配器和边界感知训练方法BA-MoE,引入特定于语言的适配器来分离语言表示,并引入门控层融合每个编码器层的表示,计算每个适配器的语言适应损失,以改善特定语言表示学习。利用边界感知预测器学习边界表示,处理语言边界混淆。与ASRU 2019普通话-英语代码转换挑战的基线相比,混合错误率降低16.55%。

图片

10、Mod-Squad

论文:Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners

Mod-Squad:将专家组合设计为模块化多任务学习者

简述:本文提出了一种模块化为专家组的新模型Mod-Squad,优化了专家与任务的匹配。在单个模型训练中,研究人员合并专家层至转换器模型,引入新损失处理任务与专家的依赖性。这避免了大模型在训练集和任务量增大时的过度使用。每个任务的专家群可独立提取,保持性能。Taskonomy和PASCAL-Context数据集证明了方法的优越性。

图片

码字不易,欢迎大家点赞评论收藏!

关注下方《享享学AI》

回复【MoE】获取完整论文

👇

  • 22
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值