随着深度学习技术的不断发展,混合专家模型(MoE)已成为一种备受关注的新型模型,MoE通过结合多个专家模型来提高预测精度和泛化能力,从而在各种任务中表现出卓越的性能。
今天特意给大家整理了10个最新MoE模型,包含提高处理速度、增强模型泛化能力、简化模型架构等方面,大家可以认真研究一下!
1、DeepSeekMoE
论文:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
Deepseekmoe:在混合专家语言模型中走向最终的专家专业化
简述:本文提出了一个新架构DeepSeekMoE,它通过优化专家的选择和利用共享专家来捕捉普遍知识,加强了模型的专业化。在测试中,2亿参数的DeepSeekMoE就达到了GShard 29亿参数模型的水平,它的性能在16亿参数上也非常出色,与计算量更大的LLaMA2 70亿参数相当。推进到1450亿参数,DeepSeekMoE在减少了计算需求的同时,性能媲美或优于传统MoE模型。
2、 Mixtral 8x7B
论文:Mixtral of Experts
专家组合
简述:本文提出了Mixtral 8x7B,这是一种稀疏专家混合 (SMoE) 语言模型,在数学、代码生成和多语言基准测试方面远远优于 Llama 2 70B,并提供了一个经过微调以遵循指令的模型 Mixtral 8x7B - Instruct,它在人类基准测试中超过了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B - 聊天模型。