论文阅读笔记——Mixtral of Experts

最新推荐文章于 2025-04-24 19:54:05 发布

寻丶幽风

最新推荐文章于 2025-04-24 19:54:05 发布

阅读量1.4k

点赞数 19

分类专栏：论文阅读笔记文章标签：笔记论文阅读语言模型 MoE LLaMA

本文链接：https://blog.csdn.net/Multiple_x/article/details/147323916

版权

论文阅读笔记专栏收录该内容

41 篇文章

订阅专栏

Mixtral 8×7B 论文
这个模型建立在 Mistral 7B 的架构上，但每层由8个前馈模块（即专家）组成。对于每个 token，路由网络在每层选择两个专家来处理当前状态并合并它们的输出。尽管每个 token 只能看到 2 个专家，但在每个时间步骤上选择的专家可以不同。因此虽然在推理过程中只能使用 13B 个活跃参数，但在访问过程中每个 token 可以访问 47B 个参数。

Mixtral 支持高达32,000个token的完整密集上下文长度；
采用了混合专家层（Mixture of Experts，MoE）来替代原先的前馈网络块。

给定 n 个专家网络 ${E_0,E_1,……,E_n\}$ ，每个专家层的输出值是通过将 x 输入门控网络 $G (x)$ 的输出加权后，与每个专家网络 $E_i(x)$ 的输出相乘得到： $\sum_{i=0}^{n-1}G(x)·E_i(x)$ 。
如果门控向量是稀疏的，就可以避免那些门控制为 0 的专家输出，一个简单有效的方法是采用 Top-K 进行 softmax 运算： $G(x):=Softmax(TopK(x·W_g))$
在 Transformer 中，MoE 层替代了 Transformer 的前馈子块，并独立应用于每个 token。Mixtral 采用与 SwiGLU 架构相同的专家函数 $E_i(x)$ ，并设 K = 2，即每个 token 被路由到 2 个具有不同权重的 SwiGLU 子块：
$y=\sum_{i=0}^{n-1}Softmax(Top2(x·W_g))_i · SwiGLU_i(x)$

实验结果

常识推理（零样本）：使用了包括 Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA、ARC-Easy/Challenge、CommonsenseQA 等在内的多个测试。
世界知识（少样本，5个）：选择了 NaturalQuestions 和 TriviaQA 作为评估工具。
阅读理解（零样本）：采用了 BoolQ 和 QuAC 进行测试。
数学题解：使用 GSM8K（8个样本）和 MATH（4个样本）进行测试。
编程任务：在 Humaneval（零样本）和 MBPP（3个样本）上进行评估。
综合流行结果：涵盖了 MMLU（5个样本）、BBH（3个样本）和 AGI Eval（3-5个样本，仅限英语多项选择题）。

Mixtral 在编程和数学方面相较于 LLaMA 2 表现更出色。

作者注意到连续的 token 经常被分配给相同的专家，且观察到有一定位置局部性，层编号越高，重复连续高于随机分配的比例越显著。