Mixture-of-Experts（MoE）原理与在DeepSeek中的应用

Chaos_Wang_

已于 2025-04-29 22:29:04 修改

阅读量302

点赞数 9

分类专栏： NLP/大模型八股文章标签： deepseek 语言模型人工智能自然语言处理

于 2025-04-29 22:27:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41667743/article/details/147620953

版权

NLP/大模型八股专栏收录该内容

69 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

MoE机制简介

Mixture-of-Experts（MoE，混合专家）是一种“分而治之”的神经网络架构思想。在MoE模型中，存在多个并行的子网络，被称为“专家”。每个专家通常擅长处理特定类型的输入特征或知识片段。而在模型前向计算时，并非激活所有专家参与运算，而是通过一个专门的门控网络（Gate Network）为每个输入动态选择少量最适合的专家来处理。这种机制使每个输入仅激活模型中一小部分参数（稀疏激活），从而大幅提升模型参数规模上限的同时保持计算开销在可控范围内。

MoE的核心思想最早可以追溯到上世纪90年代：Jacobs等人在1991年提出了混合专家模型的概念，用多个专家网络共同完成任务，并由一个门控（ gating ）机制根据输入情况加权融合这些专家的输出。现代深度学习中，MoE架构在大规模模型上的成功应用始于2017年，Shazeer等人将MoE引入到语言模型训练中，构建了超大规模的MoE模型，使模型总参数量达到百亿级，但每次推理只需激活其中极小一部分参数。这项工作证明了MoE在参数扩展与计算效率上的巨大潜力：相比于传统“密集”模型需要激活所有参数，MoE模型通过稀疏激活节省了大量算力&#x

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Chaos_Wang_ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。