论文阅读笔记——Mixtral of Experts

Mixtral 8×7B 论文
这个模型建立在 Mistral 7B 的架构上,但每层由8个前馈模块(即专家)组成。对于每个 token,路由网络在每层选择两个专家来处理当前状态并合并它们的输出。尽管每个 token 只能看到 2 个专家,但在每个时间步骤上选择的专家可以不同。因此虽然在推理过程中只能使用 13B 个活跃参数,但在访问过程中每个 token 可以访问 47B 个参数。

  • Mixtral 支持高达32,000个token的完整密集上下文长度;
  • 采用了混合专家层(Mixture of Experts,MoE)来替代原先的前馈网络块。
    在这里插入图片描述
    给定 n 个专家网络 { E 0 , E 1 , … … , E n } \{E_0,E_1,……,E_n\} {E0,E1,……,En} ,每个专家层的输出值是通过将 x 输入门控网络 G ( x ) G(x) G(x) 的输出加权后,与每个专家网络 E i ( x ) E_i(x) Ei(x) 的输出相乘得到: ∑ i = 0 n − 1 G ( x ) ⋅ E i ( x ) \sum_{i=0}^{n-1}G(x)·E_i(x) i=0n1G(x)Ei(x)
    如果门控向量是稀疏的,就可以避免那些门控制为 0 的专家输出,一个简单有效的方法是采用 Top-K 进行 softmax 运算: G ( x ) : = S o f t m a x ( T o p K ( x ⋅ W g ) ) G(x):=Softmax(TopK(x·W_g)) G(x):=Softmax(TopK(xWg))
    在 Transformer 中,MoE 层替代了 Transformer 的前馈子块,并独立应用于每个 token。Mixtral 采用与 SwiGLU 架构相同的专家函数 E i ( x ) E_i(x) Ei(x),并设 K = 2,即每个 token 被路由到 2 个具有不同权重的 SwiGLU 子块:
    y = ∑ i = 0 n − 1 S o f t m a x ( T o p 2 ( x ⋅ W g ) ) i ⋅ S w i G L U i ( x ) y=\sum_{i=0}^{n-1}Softmax(Top2(x·W_g))_i · SwiGLU_i(x) y=i=0n1Softmax(Top2(xWg))iSwiGLUi(x)

实验结果

  • 常识推理(零样本):使用了包括 Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA、ARC-Easy/Challenge、CommonsenseQA 等在内的多个测试。
  • 世界知识(少样本,5个):选择了 NaturalQuestions 和 TriviaQA 作为评估工具。
  • 阅读理解(零样本):采用了 BoolQ 和 QuAC 进行测试。
  • 数学题解:使用 GSM8K(8个样本)和 MATH(4个样本)进行测试。
  • 编程任务:在 Humaneval(零样本)和 MBPP(3个样本)上进行评估。
  • 综合流行结果:涵盖了 MMLU(5个样本)、BBH(3个样本)和 AGI Eval(3-5个样本,仅限英语多项选择题)。
    在这里插入图片描述
    Mixtral 在编程和数学方面相较于 LLaMA 2 表现更出色。
    在这里插入图片描述
    作者注意到连续的 token 经常被分配给相同的专家,且观察到有一定位置局部性,层编号越高,重复连续高于随机分配的比例越显著
<think>嗯,用户让我介绍一下《Adaptive Mixtures of Local Experts》这篇论文的阅读笔记。首先,我需要回忆一下这篇论文的主要内容。好像是关于机器学习中专家混合模型的,对吧?作者是Michael Jordan和Robert Jacobs,应该是在90年代初发表的。用户可能需要了解论文的核心思想、方法以及应用场景。 用户可能对专家混合模型不太熟悉,所以得先解释清楚基本概念。然后,要说明这篇论文的创新点在哪里,比如自适应分配训练样本到不同的专家网络,以及如何通过门控网络进行整合。可能还需要对比传统的混合模型,突出其优势,比如处理复杂模式的能力。 接下来,用户可能想知道论文的方法论部分。我需要分点说明模型结构、训练算法,比如期望最大化(EM)算法的应用,以及损失函数的设计。这部分要注意用清晰的中文,避免太技术化的术语,但又要准确。同时,用户提到要使用正确的LaTeX格式,所以里面的数学公式需要用$$...$$和$...$正确标注,比如似然函数和梯度下降的公式。 然后,可能需要讨论实验部分,论文中提到的应用场景,比如非线性分类、函数逼近等。要说明实验结果如何支持论文的观点,比如专家网络如何分工合作,提升模型性能。此外,优缺点分析也很重要,比如计算复杂度高,可能过拟合的问题,这样用户能全面了解。 还要考虑用户的需求层次,他们可能是研究生或者刚入门的研究者,需要结构清晰的笔记帮助快速理解论文。所以回答要分章节,比如摘要、核心思想、模型结构、训练方法、实验结果、总结等。同时,用户可能希望知道这篇论文的后续影响,比如在深度学习中的应用,所以可以提到现代模型中的类似思想,比如MoE(Mixture of Experts)。 在写作过程中,要确保LaTeX公式的正确性,比如行内公式用$...$,独立公式用$$...$$并单独成段。例如,门控网络的输出公式要用独立格式,而似然函数中的求和可以用行内格式。同时,注意中文表达流畅,避免直译英文术语,必要时解释概念。 可能还需要检查是否有遗漏的重点,比如模型的可扩展性、实际应用案例等。用户可能对如何实现这个模型感兴趣,所以可以简要提及训练步骤,比如分阶段训练专家和门控网络。此外,强调自适应分配样本的重要性,说明为什么这比传统方法更有效。 最后,总结部分要概括论文的贡献,并指出其优缺点,帮助用户评估该模型是否适合他们的问题。同时,展望后续工作,让读者了解该研究的延续性。整个过程需要保持逻辑清晰,逐步引导用户理解论文内容,确保信息准确可靠。</think>以下是对《Adaptive Mixtures of Local Experts》论文的阅读笔记整理,采用结构化表述: --- ### 1. **论文概要** - **作者**: Michael I. Jordan & Robert A. Jacobs (1991) - **核心问题**: 如何通过模块化神经网络结构解决复杂非线性问题 - **关键思想**: 将任务分解到多个"专家网络"(Local Experts),通过门控网络(Gating Network)动态分配样本并组合结果 --- ### 2. **核心方法** #### 2.1 模型结构 - **专家网络** $E_k(x)$: 多个并行子网络,每个学习输入空间的不同区域 - **门控网络** $G(x)$: 学习样本分配权重,满足 $\sum_{k=1}^K g_k(x) = 1$ - **最终输出**: $$y = \sum_{k=1}^K g_k(x) \cdot E_k(x)$$ #### 2.2 训练算法 - **目标函数**: 最大化对数似然 $$\mathcal{L} = \sum_{i=1}^N \log \sum_{k=1}^K g_k(x_i) \cdot P(y_i | E_k(x_i))$$ - **EM算法步骤**: 1. **E-step**: 计算样本$i$对专家$k$的后验责任(responsibility) $$r_{ik} = \frac{g_k(x_i)P(y_i|E_k(x_i))}{\sum_{j=1}^K g_j(x_i)P(y_i|E_j(x_i))}$$ 2. **M-step**: 更新专家网络参数和门控网络参数 - 专家网络:梯度下降最小化加权损失 $\sum_i r_{ik} \|y_i - E_k(x_i)\|^2$ - 门控网络:通过softmax回归更新权重 #### 2.3 自适应特性 - **空间划分自适应**: 门控网络自动学习输入空间的划分方式 - **专家专业化**: 通过竞争机制使不同专家聚焦不同数据区域 --- ### 3. **实验结果** - **基准任务**: - 非线性分类(如XOR问题) - 函数逼近(分段连续函数) - **关键发现**: - 比单一网络收敛更快 - 专家网络自发形成区域专业化 - 门控网络实现有效任务分解 --- ### 4. **理论贡献** - **混合模型新范式**: 突破了传统固定混合系数的方法 - **概率解释**: 为模型提供了EM算法的理论支撑 - **生物学启发**: 模仿大脑功能分区机制 --- ### 5. **优缺点分析** #### 优点: - 有效处理多模态数据 - 降低单一网络的复杂度 - 可解释性强(专家分工可见) #### 局限: - EM算法收敛速度依赖初始化 - 专家数量需预先设定 - 可能陷入局部最优 --- ### 6. **后续影响** - **现代应用**: - 集成学习的前身 - 与Attention机制有内在联系 - 影响MoE(Mixture of Experts)系列模型发展 - **扩展方向**: - 层级化专家结构 - 在线学习版本 - 结合深度学习框架 --- ### 7. **代码实现要点** ```python # 伪代码示例 for epoch in epochs: # 前向传播 expert_outputs = [expert(x) for expert in experts] gating_weights = softmax(gating_net(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值