Mixture of Experts（MoE）学习笔记

南七小僧

于 2024-04-23 13:00:01 发布

阅读量263

点赞数

分类专栏：人工智能网站开发医疗器械研发文章标签：学习笔记人工智能 MoE 大模型

我是南七小僧，邮箱：xkk9866@yeah.net ，C9博士，前百度搜索AI平台产品负责人，欢迎交流思想碰撞。

本文链接：https://blog.csdn.net/qq_25439417/article/details/138121100

版权

人工智能同时被 3 个专栏收录

242 篇文章 ¥19.90 ¥99.00

订阅专栏

网站开发

181 篇文章 ¥19.90 ¥99.00

订阅专栏

医疗器械研发

45 篇文章 ¥19.90 ¥99.00

订阅专栏

本文深入探讨MoE（Mixture of Experts）架构，从传统机器学习时期的Ensemble技术到深度学习时代的应用，如Transformer中的MoE层。通过分析Switch Transformer和ST-MoE等模型，揭示MoE如何在提升模型能力的同时降低推理成本。文章还讨论了MoE在训练中的挑战和解决方案，以及在GPT-4和Mixtral等大模型中的应用，指出MoE是大模型未来发展的可能趋势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 学习动机

第一次了解到MoE（Mixture of experts），是在GPT-4模型架构泄漏事件，听说GPT-4的架构是8个GPT-3级别大小的模型以MoE架构（8*220B）组合成一个万亿参数级别的模型。不过在这之后开源社区并没有对MoE架构进行很多的探索，更多的工作还是聚焦在预训练新的大模型，在Llama 2或其他模型上做Fine-tune，以及扩展大模型的Context Length。

12月8号，Mistral突然在推特上发布了一条磁力链接，里面指向的是其最新的MoE模型Mixtral 8x7B。在其最新的Blog中[2]，Mixtral 8x7B展现出了强大的能力，在多个指标上超越Llama 2，直指ChatGPT-3.5，而其推理时只需要消耗一个13B级别模型的计算量。我之前曾尝试过Mistral发布的Mistral 7B模型，这个模型被誉为最强7B模型，以7B的参数量超越了一众13B模型，如今发布的MoE模型又是一记重磅炸弹。

MoE架构的最大优势在于横向地拓展模型。MoE架构可以在目前已经非常巨大的模型上继续增加模型参数量，使模型的能力继续得到增强，同时，在推理时，可以通过Router只路由到比如8个Experts中的两个，显著降低推理成本。MoE面临的最大问题在于训练困难，训练的时候需要极力避免所有请求都被导向一两个Expert

了解本专栏