《On the Representation Collapse of Sparse Mixture of Experts》：解决MoE表示崩塌问题-CSDN博客

本文链接：https://blog.csdn.net/shizheng_Li/article/details/148061499

解读《On the Representation Collapse of Sparse Mixture of Experts》：解决MoE表示崩塌问题

Sparse Mixture of Experts（SMoE，稀疏专家混合模型）是一种通过条件计算实现模型容量扩展的高效方法，广泛应用于语言模型、图像分类和语音识别等任务。然而，SMoE的路由机制可能导致表示崩塌（representation collapse），从而限制模型的表达能力。《On the Representation Collapse of Sparse Mixture of Experts》一文（NeurIPS 2022）深入分析了这一问题，并提出了一种创新的路由算法（X-MoE），有效缓解表示崩塌并提升模型性能。以下从MoE研究者的视角，总结论文的贡献和方法。

Paper: https://openreview.net/pdf?id=mWaYC6CZf5

核心贡献

在这里插入图片描述

揭示SMoE的表示崩塌问题
论文首次系统分析了SMoE模型中的表示崩塌现象。作者指出，传统SMoE的路由机制通过点积相似度将输入token分配给专家，导致token表示倾向于聚集在专家嵌入的线性子空间中。这种聚集使得表示维度从高维（ $\mathbb{R}^d$ ）坍缩到低维（ $\mathbb{R}^N$ ， $\ll d$ ），限制了Transformer的表达能力，特别是在专家分配不均时。
提出低维超球面路由算法（X-MoE）
为解决表示崩塌，作者设计了一种新颖的路由算法，通过以下三个关键组件改进SMoE：
- 维度降低（Dimension Reduction）：将token表示和专家嵌入投影到低维空间，适配MoE路由的低秩特性。
- $L_2$ 归一化（ $L_2$ Normalization）：将token表示和专家嵌入归一化到单位超球面，消除专家嵌入范数的影响，提升表示均匀性。
- 带可学习温度的门控函数（Gating with Learnable Temperature）：引入可学习的温度参数 $\tau$ ，动态调整门控函数（softmax或sigmoid），优化专家激活的灵活性。
广泛实验验证
论文在跨语言模型预训练和下游任务微调上进行了全面实验，涵盖七个多语言基准（XTREME）。结果显示，X-MoE在语言建模（降低困惑度）和下游任务（如XNLI、MLQA）上均优于基线SMoE和密集模型，验证了方法的有效性。
深入分析表示和路由行为
通过可视化（UMAP）和表示崩塌度量（RC），论文展示了X-MoE如何改善表示的均匀性和多样性。此外，作者通过路由波动率（RF）和跨运行一致性（Inter-run Consistency）分析，证明X-MoE在预训练和微调阶段的路由行为更加稳定。

技术细节与方法

1. 表示崩塌的机理

SMoE通过路由器根据token表示 $\boldsymbol{h}$ 和专家嵌入 $\boldsymbol{e}_i$ 的点积相似度 $s_i = \boldsymbol{h} \cdot \boldsymbol{e}_i$ 分配专家。论文通过雅可比矩阵分析，揭示了梯度更新使token表示向专家嵌入的线性组合靠拢，导致表示坍缩到低维子空间。这种现象在top-1和top-K路由中均存在，尤其当某些专家主导分配时，限制了表示的表达力和区分度。

2. X-MoE路由算法

X-MoE通过以下步骤改进路由机制：

维度降低：将高维token表示 $\boldsymbol{h}$ 和专家嵌入 $\boldsymbol{e}_i$ 通过投影矩阵 $\boldsymbol{W}$ 映射到低维空间（维度 $d_c$ ，通常远小于模型隐层维度 $d$ ）。这不仅适配MoE的低秩特性，还降低了计算复杂度。
$L_2$ 归一化：路由分数重新定义为：
$s_i = \frac{(\boldsymbol{W} \boldsymbol{h}) \cdot \boldsymbol{e}_i}{\|\boldsymbol{W} \boldsymbol{h}\| \|\boldsymbol{e}_i\|}$
归一化确保路由分数仅依赖于向量夹角（余弦相似度），避免因专家嵌入范数差异导致的不均分配。
可学习温度：在门控函数中引入可学习的温度参数 $\tau$ ，调整激活强度：
$g(s_k) = \begin{cases} \frac{\exp(s_k / \tau)}{\sum_{j=1}^N \exp(s_j / \tau)}, & \text{softmax gating} \\ \sigma(s_k / \tau), & \text{sigmoid gating} \end{cases}$
这使得路由更灵活，适应不同任务需求。

3. 训练与微调策略

训练目标：联合优化任务损失（如掩码语言建模损失）和负载均衡损失：
$\mathcal{L} = \mathcal{L}_{\text{task}} + \alpha \mathcal{L}^{\text{balance}}$
负载均衡损失通过固定温度 $\tau_0$ 计算，确保专家利用率均衡。
微调策略：在微调阶段冻结路由器和专家网络参数，避免过拟合和路由不一致问题，同时保留负载均衡损失以提升性能。

4. 实验与分析

实验设置：使用Transformer编码器（12层，隐层维度768）作为骨干，插入32个专家的SMoE层，预训练数据结合CCNet和Wikipedia（94种语言）。下游任务包括POS、NER、XNLI等。
结果：X-MoE在XTREME基准上平均得分65.3（softmax门控），优于SMoE基线（64.1）和密集模型（61.4）。在机器翻译任务（WMT-10）上，X-MoE在8个语言方向的BLEU分数均优于基线。
消融研究：维度降低、 $L_2$ 归一化和冻结路由的组合对性能提升至关重要。路由维度实验表明 $d_c = N/2$ 或 $N /4$ （ $N$ 为专家数）效果最佳。
表示与路由分析：
- 可视化显示X-MoE的token表示分布更均匀，集群区分更清晰。
- 表示崩塌度量（RC）表明X-MoE的RC值更高且呈上升趋势，缓解了崩塌问题。
- 路由波动率（RF）和跨运行一致性分析显示X-MoE的路由更稳定，微调时跨种子的一致性更高。

对MoE研究者的启发

关注表示崩塌：论文揭示了SMoE中表示崩塌的普遍性，提示研究者在设计路由算法时需考虑表示空间的多样性。未来的MoE研究可进一步探索如何在高维空间中保持表示的表达力。
路由算法优化：X-MoE的低维超球面路由为MoE设计提供了新思路。研究者可尝试其他归一化方法（如L1或球面插值）或动态维度调整策略，进一步优化路由效率和稳定性。
跨领域扩展：虽然论文聚焦于语言任务，但作者提到计划将X-MoE应用于视觉和多模态预训练。这提示MoE研究者探索跨领域的路由算法适配性，尤其是在多模态任务中如何平衡不同模态的专家分配。
计算效率与环境影响：X-MoE通过稀疏激活降低计算成本，减少碳排放。研究者可进一步优化SMoE的训练效率，如通过动态专家选择或更高效的负载均衡策略。

总结

《On the Representation Collapse of Sparse Mixture of Experts》为MoE研究提供了重要洞见，揭示了表示崩塌问题并提出了X-MoE路由算法，通过维度降低、 $L_2$ 归一化和可学习温度有效缓解这一问题。实验结果和深入分析表明，X-MoE不仅提升了模型性能，还增强了路由一致性和表示多样性。对于MoE研究者而言，这篇论文提供了理论启发和实用方法，值得深入研读并作为进一步优化的起点。

表示崩塌

以下是对论文《On the Representation Collapse of Sparse Mixture of Experts》中 2.2 Representation Collapse of Sparse Mixture-of-Experts 部分的数学公式进行详细解释，包括公式的推导、意义以及得出的结论。解释将以清晰、系统的方式展开，面向对MoE（专家混合模型）和数学推导有一定了解的研究者，同时尽量保持简洁。

2.2 节概述

在这一节中，作者分析了稀疏专家混合模型（SMoE）中表示崩塌（representation collapse）问题的根源，指出传统SMoE的路由机制会导致token表示向专家嵌入的低维子空间聚集，从而限制模型的表达能力。作者通过数学推导（主要是雅可比矩阵和梯度分析）揭示了这一现象的机制，并讨论了其对模型性能的负面影响。以下逐步解析公式及其意义。

数学公式的推导与解释

1. SMoE前向传播公式

SMoE的核心是路由机制，将输入token的隐表示 $\boldsymbol{h} \in \mathbb{R}^d$ 分配给最匹配的专家。路由分数通过点积计算：

$s_i = \boldsymbol{h} \cdot \boldsymbol{e}_i$

其中， $\boldsymbol{e}_i \in \mathbb{R}^d$ 是第 $i$ 个专家的嵌入向量， $d$ 是模型隐层的维度。路由器基于分数选择专家，通常采用top-1路由（选择分数最高的专家）：

$\arg \max_i s_i = \arg \max_i \boldsymbol{h} \cdot \boldsymbol{e}_i$

SMoE层的输出定义为：

$\boldsymbol{h}' = f^{\text{SMoE}}(\boldsymbol{h}) = \boldsymbol{h} + g(s_k) f_k^{\text{FFN}}(\boldsymbol{h})$

解释：
- $\boldsymbol{h}$ 是输入token的隐表示， $\boldsymbol{h}'$ 是SMoE层的输出。
- $f_k^{\text{FFN}}(\cdot)$ 是第 $k$ 个专家的前馈神经网络（FFN）。
- $g(s_k)$ 是门控函数，控制专家的激活强度，可能为softmax或sigmoid：
  $g(s_k) = \begin{cases} \frac{\exp(s_k)}{\sum_{j=1}^N \exp(s_j)}, & \text{softmax gating} \\ \sigma(s_k), & \text{sigmoid gating} \end{cases}$
- 此公式表明，SMoE层的输出是原始表示 $\boldsymbol{h}$ 加上选定专家的加权输出。

2. 雅可比矩阵的推导

为了分析表示崩塌，作者通过计算SMoE层输出 $\boldsymbol{h}'$ 对输入 $\boldsymbol{h}$ 的雅可比矩阵（Jacobian matrix）来研究梯度传播的行为。雅可比矩阵描述了 $\boldsymbol{h}'$ 对 $\boldsymbol{h}$ 的偏导数：

$\boldsymbol{J} = \frac{\partial \boldsymbol{h}'}{\partial \boldsymbol{h}}$

根据前向传播公式（2）：

$\boldsymbol{h}' = \boldsymbol{h} + g(s_k) f_k^{\text{FFN}}(\boldsymbol{h})$

雅可比矩阵可以分解为两部分：

$\boldsymbol{J} = \boldsymbol{J}_1 + \boldsymbol{J}_2 = \left( \boldsymbol{I} + S_k \boldsymbol{J}^{\text{FFN}} \right) + \sum_{j=1}^N S_k (\delta_{kj} - S_j) \boldsymbol{h}^{\text{FFN}} \boldsymbol{e}_j^\top$

符号说明：
- $S_k = g(s_k)$ ，表示门控函数的输出（softmax或sigmoid）。
- $\boldsymbol{h}^{\text{FFN}} = f_k^{\text{FFN}}(\boldsymbol{h})$ ，是选定专家的输出。
- $\boldsymbol{J}^{\text{FFN}} = \frac{\partial f_k^{\text{FFN}}(\boldsymbol{h})}{\partial \boldsymbol{h}}$ ，是专家FFN的雅可比矩阵。
- $\delta_{kj}$ 是Kronecker delta（当 $k = j$ 时为1，否则为0）。
- $\boldsymbol{e}_j$ 是第 $j$ 个专家的嵌入向量。

推导过程：

第一项 $\boldsymbol{J}_1 = \boldsymbol{I} + S_k \boldsymbol{J}^{\text{FFN}}$ ：
- $\boldsymbol{h}' = \boldsymbol{h} + S_k \boldsymbol{h}^{\text{FFN}}$ ，对 $\boldsymbol{h}$ 求导：
  $\frac{\partial \boldsymbol{h}'}{\partial \boldsymbol{h}} = \frac{\partial \boldsymbol{h}}{\partial \boldsymbol{h}} + \frac{\partial (S_k \boldsymbol{h}^{\text{FFN}})}{\partial \boldsymbol{h}}$
- 第一部分 $\frac{\partial \boldsymbol{h}}{\partial \boldsymbol{h}} = \boldsymbol{I}$ （单位矩阵）。
- 第二部分使用乘积法则：
  $\frac{\partial (S_k \boldsymbol{h}^{\text{FFN}})}{\partial \boldsymbol{h}} = S_k \frac{\partial \boldsymbol{h}^{\text{FFN}}}{\partial \boldsymbol{h}} + \boldsymbol{h}^{\text{FFN}} \frac{\partial S_k}{\partial \boldsymbol{h}}$
  其中， $\frac{\partial \boldsymbol{h}^{\text{FFN}}}{\partial \boldsymbol{h}} = \boldsymbol{J}^{\text{FFN}}$ ，而 $\frac{\partial S_k}{\partial \boldsymbol{h}}$ 涉及门控函数的导数（稍后分析）。第一项直接得出 $S_k \boldsymbol{J}^{\text{FFN}}$ 。
第二项 $\boldsymbol{J}_2 = \sum_{j=1}^N S_k (\delta_{kj} - S_j) \boldsymbol{h}^{\text{FFN}} \boldsymbol{e}_j^\top$ ：
- 门控函数 $S_k = g(s_k)$ ，其中 $s_k = \boldsymbol{h} \cdot \boldsymbol{e}_k$ 。对于softmax门控， $S_k = \frac{\exp(s_k)}{\sum_j \exp(s_j)}$ ，其导数为：
  $\frac{\partial S_k}{\partial \boldsymbol{h}} = \sum_{j=1}^N \frac{\partial S_k}{\partial s_j} \frac{\partial s_j}{\partial \boldsymbol{h}}$
  其中， $\frac{\partial s_j}{\partial \boldsymbol{h}} = \boldsymbol{e}_j$ （因为 $s_j = \boldsymbol{h} \cdot \boldsymbol{e}_j$ ），而softmax的导数为：
  $\frac{\partial S_k}{\partial s_j} = S_k (\delta_{kj} - S_j)$
  因此：
  $\frac{\partial S_k}{\partial \boldsymbol{h}} = \sum_{j=1}^N S_k (\delta_{kj} - S_j) \boldsymbol{e}_j$
- 结合乘积法则，第二部分的贡献为：
  $\boldsymbol{h}^{\text{FFN}} \frac{\partial S_k}{\partial \boldsymbol{h}} = \sum_{j=1}^N S_k (\delta_{kj} - S_j) \boldsymbol{h}^{\text{FFN}} \boldsymbol{e}_j^\top$

意义：
- $\boldsymbol{J}_1$ 负责优化token表示，结合专家的输出调整 $\boldsymbol{h}$ 。
- $\boldsymbol{J}_2$ 影响门控函数的学习，控制专家的激活分数 $S_k$ 。

3. 梯度分析与表示崩塌

通过反向传播，损失函数 $\mathcal{L}$ 对 $\boldsymbol{h}$ 的梯度为：

$\nabla_{\boldsymbol{h}} \mathcal{L} = \boldsymbol{J}^\top \nabla_{\boldsymbol{h}'} \mathcal{L} = \boldsymbol{J}_1^\top \nabla_{\boldsymbol{h}'} \mathcal{L} + \boldsymbol{J}_2^\top \nabla_{\boldsymbol{h}'} \mathcal{L}$

其中， $\boldsymbol{J}_2^\top \nabla_{\boldsymbol{h}'} \mathcal{L}$ 是关键，展开为：

$\boldsymbol{J}_2^\top \nabla_{\boldsymbol{h}'} \mathcal{L} = \sum_{j=1}^N S_k (\delta_{kj} - S_j) (\boldsymbol{h}^{\text{FFN}^\top} \nabla_{\boldsymbol{h}'} \mathcal{L}) \boldsymbol{e}_j = \sum_{j=1}^N c_j \boldsymbol{e}_j$

其中， $c_j = S_k (\delta_{kj} - S_j) (\boldsymbol{h}^{\text{FFN}^\top} \nabla_{\boldsymbol{h}'} \mathcal{L})$ 是一个标量系数。

推导：
- $\boldsymbol{J}_2 = \sum_{j=1}^N S_k (\delta_{kj} - S_j) \boldsymbol{h}^{\text{FFN}} \boldsymbol{e}_j^\top$ ，其转置为：
  $\boldsymbol{J}_2^\top = \sum_{j=1}^N S_k (\delta_{kj} - S_j) \boldsymbol{e}_j \boldsymbol{h}^{\text{FFN}^\top}$
- 因此：
  $\boldsymbol{J}_2^\top \nabla_{\boldsymbol{h}'} \mathcal{L} = \sum_{j=1}^N S_k (\delta_{kj} - S_j) \boldsymbol{e}_j (\boldsymbol{h}^{\text{FFN}^\top} \nabla_{\boldsymbol{h}'} \mathcal{L})$
  其中， $\boldsymbol{h}^{\text{FFN}^\top} \nabla_{\boldsymbol{h}'} \mathcal{L}$ 是一个标量。
意义：
- 梯度 $\nabla_{\boldsymbol{h}} \mathcal{L}$ 的 $\boldsymbol{J}_2^\top$ 部分表明，token表示 $\boldsymbol{h}$ 的更新方向是专家嵌入 $\boldsymbol{e}_j$ 的线性组合。
- 这意味着 $\boldsymbol{h}$ 被“拉向”专家嵌入的子空间，导致表示倾向于聚集在专家嵌入的线性跨度内。

4. Top-K路由的扩展

对于top-K路由（激活分数最高的前 $K$ 个专家），前向传播公式为：

$\boldsymbol{h}' = \boldsymbol{h} + \sum_{i=1}^K g(s_{k_i}) f_{k_i}^{\text{FFN}}(\boldsymbol{h})$

其中， $k_1, k_2, \ldots, k_K = \text{top } K(s_i)$ ，门控函数为：

$g(s_{k_i}) = \frac{\exp(s_{k_i})}{\sum_{j=1}^K \exp(s_{k_j})}$

类似地， $\boldsymbol{J}_2^\top \nabla_{\boldsymbol{h}'} \mathcal{L}$ 为：

$\boldsymbol{J}_2^\top \nabla_{\boldsymbol{h}'} \mathcal{L} = \sum_{i=1}^K \sum_{j=1}^K S_{k_i} (\delta_{k_i k_j} - S_{k_j}) (\boldsymbol{h}^{\text{FFN}_{k_i}^\top} \nabla_{\boldsymbol{h}'} \mathcal{L}) \boldsymbol{e}_{k_j} = \sum_{j=1}^K c_j \boldsymbol{e}_{k_j}$

意义：
- top-K路由的梯度更新仍然使 $\boldsymbol{h}$ 向 $K$ 个专家嵌入的线性组合靠拢，子空间维度最多为 $K$ 。

公式的意义

表示崩塌的机制：
- 公式（5）和（6）表明，梯度更新使token表示 $\boldsymbol{h}$ 向专家嵌入 $\boldsymbol{e}_j$ 的线性子空间靠拢。由于专家数量 $N$ （或 $K$ ）远小于隐层维度 $d$ （ $\ll d$ ），表示被限制在一个低维子空间（ $\mathbb{R}^N$ 或 $\mathbb{R}^K$ ），导致从 $\mathbb{R}^d$ 到 $\mathbb{R}^N$ 的表示崩塌。
- 当某些专家主导路由时（例如由于较大的 $\boldsymbol{e}_j$ 范数），token表示会进一步聚集到这些专家附近，减少表示的多样性和区分度。
对模型性能的影响：
- 表示崩塌限制了Transformer的表达能力，因为隐状态无法充分利用高维空间 $\mathbb{R}^d$ 。
- 聚集的表示可能导致模型难以区分不同token的语义，尤其在多语言或复杂任务中，降低模型的泛化能力。

结论

表示崩塌的发现：
- SMoE的路由机制通过梯度更新使token表示 $\boldsymbol{h}$ 向专家嵌入 $\boldsymbol{e}_j$ 的低维子空间靠拢，导致表示崩塌。这种现象在top-1和top-K路由中均存在。
- 崩塌的原因是路由分数的点积机制（ $s_i = \boldsymbol{h} \cdot \boldsymbol{e}_i$ ）和梯度更新的线性组合效应。
对MoE设计的启发：
- 表示崩塌限制了SMoE的表达能力，特别是在专家分配不均或某些专家主导时。
- 为缓解这一问题，需要改进路由算法，例如通过维度降低、归一化或更灵活的门控机制来增强表示的均匀性和多样性。
后续改进方向：
- 论文后续提出X-MoE，通过在低维超球面计算路由分数（结合维度降低和 $L_2$ 归一化）以及引入可学习温度的门控函数，缓解表示崩塌并提升路由一致性。

总结

2.2节通过雅可比矩阵和梯度分析，揭示了SMoE中表示崩塌的数学机理：token表示被梯度更新拉向专家嵌入的低维子空间，导致表达能力受限。这一发现为优化MoE路由算法提供了理论依据，提示研究者关注表示空间的多样性和路由的稳定性。X-MoE的提出正是基于这一分析，通过改进路由机制有效缓解了表示崩塌问题。

限制在低维子空间

问题背景与核心疑问

你的疑问聚焦于公式（5）和（6）：

$\boldsymbol{J}_2^\top \nabla_{\boldsymbol{h}'} \mathcal{L} = \sum_{j=1}^N c_j \boldsymbol{e}_j \quad \text{(公式 5，top-1 路由)}$

$\boldsymbol{J}_2^\top \nabla_{\boldsymbol{h}'} \mathcal{L} = \sum_{j=1}^K c_j \boldsymbol{e}_{k_j} \quad \text{(公式 6，top-K 路由)}$

其中， $c_j = S_k (\delta_{kj} - S_j) (\boldsymbol{h}^{\text{FFN}^\top} \nabla_{\boldsymbol{h}'} \mathcal{L})$ 是一个标量系数， $\boldsymbol{e}_j$ 是专家嵌入向量， $N$ 是专家总数， $K$ 是top-K路由中激活的专家数， $\boldsymbol{h} \in \mathbb{R}^d$ 是输入token的隐表示， $d$ 是隐层维度（通常远大于 $N$ 或 $K$ ）。

你的疑问可以总结为：

为什么说 $\boldsymbol{h}$ 被限制在低维子空间 $\mathbb{R}^N$ 或 $\mathbb{R}^K$ ？专家嵌入 $\boldsymbol{e}_j$ 的线性组合不是仍然在 $\mathbb{R}^d$ 中吗？
是不是因为 $\boldsymbol{e}_j$ 前面的系数 $c_j$ 个数少（只有 $N$ 或 $K$ 个），导致维度坍缩？

下面我将从数学和直观的角度逐步解答。

解答：低维子空间与表示崩塌

1. 理解“低维子空间”的含义

在数学中，向量空间 $\mathbb{R}^d$ 是 $d$ 维的，意味着任何向量 $\boldsymbol{h} \in \mathbb{R}^d$ 可以用 $d$ 个线性无关的基向量表示。而子空间是 $\mathbb{R}^d$ 的一个子集，其维度小于或等于 $d$ 。例如，一个 $N$ 维子空间由 $N$ 个线性无关的向量（如 $\boldsymbol{e}_1, \boldsymbol{e}_2, \ldots, \boldsymbol{e}_N$ ）张成（span），任何在这个子空间中的向量都可以表示为这些基向量的线性组合。

在公式（5）和（6）中，梯度 $\boldsymbol{J}_2^\top \nabla_{\boldsymbol{h}'} \mathcal{L}$ 的形式是：

$\sum_{j=1}^N c_j \boldsymbol{e}_j \quad \text{(top-1)} \quad \text{或} \quad \sum_{j=1}^K c_j \boldsymbol{e}_{k_j} \quad \text{(top-K)}$

关键点：这里的梯度是一个向量，表示 $\boldsymbol{h}$ 的更新方向。更新方向完全由专家嵌入 $\boldsymbol{e}_j$ 的线性组合构成。
张成的子空间：假设 $\boldsymbol{e}_1, \boldsymbol{e}_2, \ldots, \boldsymbol{e}_N$ 是线性无关的（通常在初始化时会尽量保证这一点），它们最多张成一个 $N$ 维子空间（如果某些 $\boldsymbol{e}_j$ 线性相关，维度可能更低）。对于top-K路由，激活的 $K$ 个专家嵌入 $\boldsymbol{e}_{k_j}$ 最多张成一个 $K$ 维子空间。
维度对比：在SMoE中，专家数量 $N$ （或 $K$ ）通常远小于隐层维度 $d$ （例如， $N = 32$ ， $d = 768$ ）。因此，梯度更新方向被限制在 $\boldsymbol{e}_j$ 张成的子空间中，其维度远小于 $\mathbb{R}^d$ 的完整维度。

直观解释：虽然 $\boldsymbol{e}_j \in \mathbb{R}^d$ （即专家嵌入是 $d$ 维向量），但它们的线性组合 $\sum c_j \boldsymbol{e}_j$ 只能覆盖由 $\boldsymbol{e}_j$ 张成的子空间，维度最多为 $N$ （或 $K$ ）。这意味着 $\boldsymbol{h}$ 的更新只能沿着这个低维子空间的方向进行，而不是利用整个 $\mathbb{R}^d$ 的自由度。

2. 为什么是“低维子空间”？

你的疑问提到“ $\boldsymbol{e}_j$ 的线性加权不还是在 $\mathbb{R}^d$ 中吗？”这是正确的，但需要澄清“子空间”的概念：

线性组合的限制：虽然 $\sum c_j \boldsymbol{e}_j$ 的结果是一个 $\mathbb{R}^d$ 中的向量，但它只能表示由 $\boldsymbol{e}_1, \boldsymbol{e}_2, \ldots, \boldsymbol{e}_N$ 张成的子空间中的点。如果 $\boldsymbol{e}_j$ 有 $N$ 个，且线性无关，子空间的维度是 $N$ 。即使 $\boldsymbol{e}_j$ 本身是 $d$ 维的，它们的线性组合无法覆盖整个 $\mathbb{R}^d$ ，除非 $\geq d$ （但在MoE中， $\ll d$ ）。
系数个数的作用：你提到的“ $\boldsymbol{e}_j$ 前面的系数个数少”是一个很好的直觉。系数 $c_j$ 的个数（ $N$ 或 $K$ ）决定了线性组合的自由度。无论 $c_j$ 取何值， $\sum c_j \boldsymbol{e}_j$ 只能表示 $N$ 个基向量的组合，因此维度受限于 $N$ 。

类比：想象 $\mathbb{R}^3$ （三维空间），你有 $N = 2$ 个向量 $\boldsymbol{e}_1 = (1, 0, 0)$ 和 $\boldsymbol{e}_2 = (0, 1, 0)$ 。它们的线性组合 $c_1 \boldsymbol{e}_1 + c_2 \boldsymbol{e}_2 = (c_1, c_2, 0)$ 只能形成 $x y$ 平面（一个二维子空间），无法覆盖整个 $\mathbb{R}^3$ 。在SMoE中， $\boldsymbol{e}_j$ 的数量 $N$ 远小于 $d$ ，导致类似的现象。

3. 表示崩塌的机制

表示崩塌是指token表示 $\boldsymbol{h}$ 的多样性减少，表现为隐状态被“拉向”专家嵌入的低维子空间。公式（5）和（6）揭示了这一过程：

梯度更新的影响：梯度 $\nabla_{\boldsymbol{h}} \mathcal{L} = \boldsymbol{J}_1^\top \nabla_{\boldsymbol{h}'} \mathcal{L} + \boldsymbol{J}_2^\top \nabla_{\boldsymbol{h}'} \mathcal{L}$ 决定 $\boldsymbol{h}$ 的更新方向。其中， $\boldsymbol{J}_2^\top \nabla_{\boldsymbol{h}'} \mathcal{L} = \sum c_j \boldsymbol{e}_j$ 使 $\boldsymbol{h}$ 向 $\boldsymbol{e}_j$ 的线性子空间靠拢。
聚集效应：在训练过程中， $\boldsymbol{h}$ 不断通过梯度更新调整。如果路由机制倾向于将多个token分配给同一个专家（例如由于 $\boldsymbol{e}_j$ 的范数较大），这些token的 $\boldsymbol{h}$ 会进一步向该专家的嵌入 $\boldsymbol{e}_j$ 靠拢，导致表示聚集，失去区分度。
维度坍缩：由于更新方向受限于 $N$ 维子空间（ $\ll d$ ）， $\boldsymbol{h}$ 的有效维度从 $d$ 降低到最多 $N$ ，这意味着模型无法充分利用 $\mathbb{R}^d$ 的表达能力。这种现象称为“从 $\mathbb{R}^d$ 到 $\mathbb{R}^N$ 的表示崩塌”。

直观解释：假设你有1000维的隐表示，但只有32个专家。梯度更新只能在32个专家嵌入张成的子空间中调整 $\boldsymbol{h}$ ，相当于把表示压缩到一个32维的“盒子”里。这限制了表示的多样性，尤其当某些专家主导路由时，token表示会趋向于少数几个 $\boldsymbol{e}_j$ ，导致表示“坍缩”。

4. 为什么系数个数少导致问题？

你的直觉“是不是因为 $\boldsymbol{e}_j$ 前面的系数个数少”非常准确。以下进一步说明：

自由度受限：线性组合 $\sum c_j \boldsymbol{e}_j$ 中的 $c_j$ 只有 $N$ 个（或top-K中的 $K$ 个），这意味着梯度方向的自由度最多为 $N$ 。相比之下， $\boldsymbol{h} \in \mathbb{R}^d$ 原本有 $d$ 个自由度（ $\gg N$ ）。这种自由度的减少直接导致表示无法探索整个 $\mathbb{R}^d$ 。
专家主导问题：如果某些 $\boldsymbol{e}_j$ 的范数 $\lVert \boldsymbol{e}_j \rVert$ 较大或路由机制偏向某些专家， $c_j$ 的值可能使这些专家的贡献占主导，进一步加剧表示向少数几个 $\boldsymbol{e}_j$ 聚集，减少表示的区分度。

数学视角：假设 $\boldsymbol{e}_1, \ldots, \boldsymbol{e}_N$ 是线性无关的，它们张成的子空间是：

$\text{span}(\boldsymbol{e}_1, \boldsymbol{e}_2, \ldots, \boldsymbol{e}_N) = \{ \sum_{j=1}^N c_j \boldsymbol{e}_j \mid c_j \in \mathbb{R} \}$

这个子空间的维度最多为 $N$ ，远小于 $d$ 。梯度更新 $\boldsymbol{h} \gets \boldsymbol{h} - \eta \nabla_{\boldsymbol{h}} \mathcal{L}$ 的 $\boldsymbol{J}_2^\top$ 部分始终在这个子空间内，导致 $\boldsymbol{h}$ 逐渐被约束在这个低维空间中。

意义与结论

意义

揭示表示崩塌的根源：
- 公式（5）和（6）表明，SMoE的路由机制通过梯度更新将 $\boldsymbol{h}$ 限制在专家嵌入的低维子空间中。这是因为梯度方向 $\sum c_j \boldsymbol{e}_j$ 只能覆盖由 $N$ （或 $K$ ）个 $\boldsymbol{e}_j$ 张成的空间，维度远低于 $\mathbb{R}^d$ 。
- 当某些专家主导路由时，token表示会进一步向这些专家的 $\boldsymbol{e}_j$ 靠拢，导致表示聚集，丧失多样性。
对模型性能的影响：
- 表示崩塌减少了隐状态的表达能力，限制了Transformer在高维空间中捕捉复杂语义的能力。
- 尤其在多语言或复杂任务中，表示的低多样性可能导致模型难以区分不同token的语义，降低泛化性能。

结论

低维子空间的限制：
- $\boldsymbol{h}$ 被限制在 $\mathbb{R}^N$ 或 $\mathbb{R}^K$ 子空间的原因是梯度更新的方向 $\sum c_j \boldsymbol{e}_j$ 仅由 $N$ （或 $K$ ）个专家嵌入线性组合构成，自由度受限于专家数量，而非完整的 $d$ 维空间。
- 虽然 $\boldsymbol{e}_j$ 是 $d$ 维向量，但它们的线性组合无法覆盖整个 $\mathbb{R}^d$ ，导致维度坍缩。
表示崩塌的后果：
- 表示崩塌使 $\boldsymbol{h}$ 的有效维度从 $d$ 降低到 $N$ （或 $K$ ），限制了模型的表达能力。
- 当专家分配不均时（某些 $\boldsymbol{e}_j$ 主导），token表示会聚集到少数专家附近，进一步加剧崩塌。
改进方向：
- 为了缓解表示崩塌，需要改进路由机制，例如通过维度降低、归一化（如论文提出的X-MoE）或更灵活的门控函数，增强表示的均匀性和多样性。

直观类比

想象一个图书馆（ $\mathbb{R}^d$ ，高维空间）有1000个书架（维度），但你只有32本书（专家嵌入 $\boldsymbol{e}_j$ ）。无论你如何组合这32本书（线性组合 $\sum c_j \boldsymbol{e}_j$ ），你只能填充32个书架，剩下的968个书架永远空着。这就是表示崩塌：token表示 $\boldsymbol{h}$ 被限制在32维子空间中，无法利用整个1000维空间的表达能力。如果某些书特别“吸引人”（例如 $\boldsymbol{e}_j$ 范数大），所有读者（token）都挤向这些书，导致表示更加单一。

总结

你的疑问“是不是因为 $\boldsymbol{e}_j$ 前面的系数个数少”抓住了问题的核心。表示崩塌的根源在于梯度更新方向 $\sum c_j \boldsymbol{e}_j$ 受限于 $N$ （或 $K$ ）个专家嵌入的线性组合，维度最多为 $N$ 或 $K$ ，远小于隐层维度 $d$ 。这导致 $\boldsymbol{h}$ 被“困”在低维子空间中，丧失了 $\mathbb{R}^d$ 的表达能力。公式（5）和（6）通过数学推导清晰揭示了这一机制，为后续优化（如X-MoE的低维超球面路由）提供了理论依据。

为什么本文的方法work？

为什么在低维超球面（low-dimensional hypersphere）上计算路由分数能够有效缓解表示崩塌（representation collapse）？以下我将详细解释 X-MoE 路由算法的做法、其有效性背后的理论依据，以及如何缓解表示崩塌，面向对 MoE 和数学推导有一定了解的研究者，同时保持清晰和简洁。

3 Methods 概述

在第 3 节中，作者提出了 X-MoE 路由算法，旨在解决 SMoE 中表示崩塌问题。核心思想是将 token 表示和专家嵌入投影到低维空间，并在单位超球面上计算路由分数，同时引入可学习的门控温度参数。算法包含以下三个关键组件：

维度降低（Dimension Reduction）：将 token 表示 $\boldsymbol{h}$ 和专家嵌入 $\boldsymbol{e}_i$ 投影到低维空间（维度 $d_c \ll d$ ）。
$L_2$ 归一化（ $L_2$ Normalization）：将投影后的表示和嵌入归一化到单位超球面，路由分数基于余弦相似度计算。
带可学习温度的门控函数（Gating with Learnable Temperature）：引入可学习参数 $\tau$ 调整门控函数的激活强度。

这些方法共同作用，缓解表示崩塌，提升路由一致性和模型性能。下面逐一分析这些做法为什么有效，以及其理论依据。

X-MoE 路由算法的做法及有效性

1. 维度降低（Dimension Reduction）

做法：

将高维 token 表示 $\boldsymbol{h} \in \mathbb{R}^d$ 和专家嵌入 $\boldsymbol{e}_i \in \mathbb{R}^d$ 通过投影矩阵 $\boldsymbol{W}$ 映射到低维空间 $\mathbb{R}^{d_c}$ ，其中 $d_c \ll d$ （例如， $d = 768$ ， $d_c=16$ ）。
投影后的表示为 $\boldsymbol{W} \boldsymbol{h}$ ，专家嵌入为 $\boldsymbol{e}_i \in \mathbb{R}^{d_c}$ 。

为什么有效：

适配 MoE 的低秩特性：
- 第 2.2 节分析表明，表示崩塌源于 token 表示 $\boldsymbol{h}$ 被梯度更新拉向专家嵌入 $\boldsymbol{e}_j$ 张成的低维子空间（维度最多为专家数 $N$ ）。这表明路由机制本身具有低秩（low-rank）特性，即路由分数 $s_i = \boldsymbol{h} \cdot \boldsymbol{e}_i$ 并不需要利用完整的 $d$ 维空间。
- 维度降低将 $\boldsymbol{h}$ 和 $\boldsymbol{e}_i$ 投影到 $d_c$ 维空间（通常 $d_c \approx N$ 或略小于 $N$ ），显式适配这一低秩特性，减少计算冗余，同时保留路由所需的信息。
缓解表示崩塌：
- 在高维空间 $\mathbb{R}^d$ 中， $\boldsymbol{e}_j$ 的线性组合受限于 $N$ 维子空间，导致表示崩塌。投影到低维空间 $\mathbb{R}^{d_c}$ （ $d_c \approx N$ ）后，专家嵌入 $\boldsymbol{e}_i$ 更容易覆盖整个低维空间（因为 $d_c$ 和 $N$ 接近），从而减少表示被“压缩”到更低维子空间的风险。
- 直观来说，维度降低将问题从“在高维空间中被困于低维子空间”转变为“在适当的低维空间中充分利用维度”，避免了不必要的维度浪费。

理论依据：

低秩假设：MoE 的路由机制本质上是一个低秩决策过程，因为专家数量 $N$ 远小于隐层维度 $d$ 。投影到 $d_c \approx N$ 的空间符合这一假设，理论上能保留路由的有效信息，同时降低计算复杂度。
表示空间利用：在高维空间中， $\boldsymbol{e}_j$ 张成的子空间维度远小于 $d$ ，导致表示崩塌。低维投影使 $\boldsymbol{e}_i$ 的张成空间更接近 $\mathbb{R}^{d_c}$ 的完整维度，增强表示的表达能力。

2. $L_2$ 归一化（ $L_2$ Normalization）

做法：

在低维空间中，将投影后的 token 表示 $\boldsymbol{W} \boldsymbol{h}$ 和专家嵌入 $\boldsymbol{e}_i$ 进行 $L_2$ 归一化，路由分数定义为：

$s_i = \frac{(\boldsymbol{W} \boldsymbol{h}) \cdot \boldsymbol{e}_i}{\|\boldsymbol{W} \boldsymbol{h}\| \|\boldsymbol{e}_i\|}$

这等价于计算单位超球面上的余弦相似度，消除了向量范数的影响。

为什么有效：

消除范数影响：
- 在传统 SMoE 中，路由分数 $s_i = \boldsymbol{h} \cdot \boldsymbol{e}_i$ 受向量范数 $\lVert \boldsymbol{h} \rVert$ 和 $\lVert \boldsymbol{e}_i \rVert$ 的影响。如果某些专家的 $\lVert \boldsymbol{e}_i \rVert$ 较大，它们可能主导路由，导致 token 表示 $\boldsymbol{h}$ 向这些专家嵌入靠拢，加剧表示崩塌。
- $L_2$ 归一化将 $\boldsymbol{W} \boldsymbol{h}$ 和 $\boldsymbol{e}_i$ 投影到单位超球面（ $\lVert \boldsymbol{W} \boldsymbol{h} \rVert = \lVert \boldsymbol{e}_i \rVert = 1$ ），路由分数仅取决于向量间的夹角（余弦相似度）。这避免了因范数差异导致的专家分配不均。
增强表示均匀性：
- 归一化后的表示分布在单位超球面上，鼓励 token 表示在空间中更均匀分布，减少向少数专家嵌入聚集的趋势。
- 图 2b（论文中）的可视化显示，X-MoE 的 token 表示分布更均匀，集群区分更清晰，表明 $L_2$ 归一化有效缓解了表示崩塌。

在这里插入图片描述

稳定路由行为：
- 论文指出，未归一化的专家嵌入 $\boldsymbol{e}_i$ 若范数较小，可能导致路由分配波动（尤其在专家数量多时）。通过初始化 $\lVert \boldsymbol{e}_i \rVert = 0.1$ 并保持不变，X-MoE 稳定了路由过程中的角度更新，减少了分配波动。

理论依据：

几何视角：在单位超球面上，路由分数基于余弦相似度，强调表示的方向性而非大小。这种几何约束鼓励 token 表示分布更均匀，防止表示坍缩到少数专家主导的子空间。
信息论视角：归一化减少了路由分数对无关因素（如范数）的依赖，使路由决策更专注于语义相关性，从而提升表示的多样性和区分度。

3. 带可学习温度的门控函数（Gating with Learnable Temperature）

做法：

在门控函数中引入可学习温度参数 $\tau$ ，调整路由分数的激活强度：

$g(s_k) = \begin{cases} \frac{\exp(s_k / \tau)}{\sum_{j=1}^N \exp(s_j / \tau)}, & \text{softmax gating} \\ \sigma(s_k / \tau), & \text{sigmoid gating} \end{cases}$

由于 $L_2$ 归一化将路由分数 $s_k$ 限制在 $[- 1, 1]$ 范围内，直接使用可能导致专家激活过于保守。温度 $\tau$ 动态调节激活的“锐度”。

为什么有效：

灵活调整激活：
- $L_2$ 归一化后的 $s_k \in [-1, 1]$ 可能使门控函数输出（如 softmax）过于平滑，导致专家激活不足。引入 $\tau$ 允许模型自适应调整激活强度，例如较小的 $\tau$ 使 softmax 更“尖锐”，增强专家的选择性。
- 这在不同任务（如预训练和微调）中尤为重要，因为任务特性可能需要不同的路由策略。
缓解表示崩塌：
- 可学习温度通过调整 $g(s_k)$ 的分布，间接影响梯度 $\boldsymbol{J}_2^\top \nabla_{\boldsymbol{h}'} \mathcal{L} = \sum c_j \boldsymbol{e}_j$ 中的系数 $c_j$ 。更灵活的门控函数可以避免某些专家过度主导路由，从而减少 token 表示向少数 $\boldsymbol{e}_j$ 聚集的趋势。
提高路由一致性：
- 温度 $\tau$ 的可学习性使路由机制能够适应训练过程中的数据分布变化，减少路由波动（如图 3a 所示，X-MoE 的路由波动率 RF 较低）。

在这里插入图片描述

理论依据：

优化视角：温度 $\tau$ 类似于 softmax 中的正则化参数，控制路由分数的熵。较低的 $\tau$ 增加选择性（低熵），较高的 $\tau$ 增加均匀性（高熵），使路由机制更灵活，适应不同任务需求。
梯度分析：门控函数 $g(s_k)$ 影响梯度系数 $c_j = S_k (\delta_{kj} - S_j) (\boldsymbol{h}^{\text{FFN}^\top} \nabla_{\boldsymbol{h}'} \mathcal{L})$ 。可学习 $\tau$ 动态调整 $S_k$ ，优化梯度方向，防止表示过度向某些 $\boldsymbol{e}_j$ 靠拢。

理论依据：为什么能缓解表示崩塌？

表示崩塌的核心问题是 token 表示 $\boldsymbol{h}$ 被梯度更新拉向专家嵌入 $\boldsymbol{e}_j$ 张成的低维子空间（维度 $\leq N$ ），导致表达能力受限。X-MoE 的三个组件从以下方面缓解这一问题：

维度降低适配低秩特性：
- 传统 SMoE 在高维空间 $\mathbb{R}^d$ 中计算路由分数，但梯度更新受限于 $N$ 维子空间（ $\ll d$ ），导致表示崩塌。X-MoE 通过投影到 $\mathbb{R}^{d_c}$ （ $d_c \approx N$ ），使路由空间与专家数量匹配，减少维度浪费。
- 理论上， $\boldsymbol{W} \boldsymbol{h}$ 和 $\boldsymbol{e}_i$ 在低维空间中更可能覆盖整个 $\mathbb{R}^{d_c}$ ，避免表示被压缩到更低维的子空间（如 $\mathbb{R}^k$ ， $k < N$ ）。
$L_2$ 归一化增强均匀性：
- 第 2.2 节的公式（5）表明，梯度 $\sum c_j \boldsymbol{e}_j$ 使 $\boldsymbol{h}$ 向 $\boldsymbol{e}_j$ 的线性组合靠拢。若某些 $\boldsymbol{e}_j$ 的范数较大，路由可能偏向这些专家，导致表示聚集。 $L_2$ 归一化消除范数影响，路由分数仅取决于方向（余弦相似度），鼓励 token 表示在超球面上均匀分布。
- 数学上，归一化后的梯度方向 $\sum c_j \frac{\boldsymbol{e}_j}{\lVert \boldsymbol{e}_j \rVert}$ 更均匀地分布在 $\mathbb{R}^{d_c}$ 中，减少表示向少数专家嵌入坍缩的风险。
可学习温度优化路由动态：
- 表示崩塌部分源于路由分配不均（某些专家主导）。可学习温度 $\tau$ 动态调整门控函数的输出 $S_k$ ，影响梯度系数 $c_j$ ，从而控制专家的激活分布。
- 通过优化 $\tau$ ，模型可以避免过度依赖少数专家，保持路由的多样性，间接缓解表示向特定 $\boldsymbol{e}_j$ 的聚集。

综合效果：

图 2c 的表示崩塌度量（RC）显示，X-MoE 的 RC 值高于 SMoE 基线且呈上升趋势，表明表示崩塌得到缓解。
图 2b 的可视化（UMAP）进一步证实，X-MoE 的 token 表示分布更均匀，集群区分更清晰，说明低维超球面路由增强了表示的多样性。

理论支持：

几何约束：超球面上的路由分数（余弦相似度）强制表示分布在单位球面上，符合表示学习中均匀性（uniformity）的原则，减少表示坍缩（Papyan et al., 2020; Zhu et al., 2021）。
低秩优化：维度降低与 MoE 的低秩特性对齐，理论上优化了路由决策的信息效率，减少表示空间的浪费。
动态调整：可学习温度类似于正则化参数，平衡了路由的探索（exploration）和利用（exploitation），防止表示过度集中。

对表示崩塌的具体缓解机制

从第 2.2 节的分析看，表示崩塌源于梯度 $\boldsymbol{J}_2^\top \nabla_{\boldsymbol{h}'} \mathcal{L} = \sum c_j \boldsymbol{e}_j$ 将 $\boldsymbol{h}$ 拉向 $N$ 维子空间。X-MoE 的做法如何缓解这一问题？

维度降低：
- 投影到 $\mathbb{R}^{d_c}$ 后，梯度方向 $\sum c_j \boldsymbol{e}_j$ 在低维空间中计算， $\boldsymbol{e}_j$ 更容易覆盖整个 $\mathbb{R}^{d_c}$ （因为 $d_c \approx N$ ）。这减少了表示被压缩到更低维子空间的风险。
- 梯度更新不再局限于高维空间中的低维子空间，而是充分利用低维空间的维度。
$L_2$ 归一化：
- 归一化后的梯度方向 $\sum c_j \frac{\boldsymbol{e}_j}{\lVert \boldsymbol{e}_j \rVert}$ 分布在单位超球面上，系数 $c_j$ 仅由余弦相似度和门控函数决定。这防止了因 $\lVert \boldsymbol{e}_j \rVert$ 差异导致的专家主导问题。
- 归一化鼓励 $\boldsymbol{W} \boldsymbol{h}$ 和 $\boldsymbol{e}_j$ 在超球面上均匀分布，减少表示向少数 $\boldsymbol{e}_j$ 聚集的趋势。
可学习温度：
- 温度 $\tau$ 调整 $S_k$ 的分布，间接影响 $c_j$ 的值，使梯度方向更平衡。避免某些 $c_j$ 过大（导致 $\boldsymbol{h}$ 向特定 $\boldsymbol{e}_j$ 靠拢），从而保持表示的多样性。

实验验证与结论

实验证据：
- 表 3 的消融研究表明，维度降低、 $L_2$ 归一化和冻结路由的组合共同提升了性能，单独移除任一组件都会降低效果，验证了三者的协同作用。
- 图 2c 的 RC 度量显示，X-MoE 的表示崩塌程度低于 SMoE 基线，且随训练呈上升趋势。
- 图 3a 和 3b 表明，X-MoE 的路由波动率（RF）和跨运行一致性（Inter-run Consistency）优于基线，说明路由更稳定，间接支持表示多样性的提升。
结论：
- X-MoE 通过在低维超球面上计算路由分数，结合维度降低、 $L_2$ 归一化和可学习温度，有效缓解表示崩塌。
- 理论依据包括低秩优化、几何均匀性和动态路由调整，这些机制共同确保 token 表示充分利用低维空间，减少向少数专家嵌入的聚集，增强表达能力。
- 实验结果进一步证实，X-MoE 在跨语言预训练和下游任务上优于基线，证明了其在缓解表示崩塌和提升性能方面的有效性。

总结

X-MoE 路由算法通过维度降低适配 MoE 的低秩特性， $L_2$ 归一化增强表示均匀性，可学习温度优化路由动态，共同缓解表示崩塌。理论上，这些方法通过约束梯度方向、优化表示分布和平衡专家激活，防止 token 表示被限制在低维子空间或聚集到少数专家嵌入。实验验证了这些机制的有效性，为 MoE 路由设计提供了重要的理论和实践启发。