论文阅读：（ICML 2022）Neural Implicit Dictionary Learning via Mixture-of-Expert Training

最新推荐文章于 2025-04-15 10:58:57 发布

倘若我问心无愧呢丶

最新推荐文章于 2025-04-15 10:58:57 发布

阅读量651

点赞数 1

文章标签：深度学习机器学习人工智能

原文链接：https://proceedings.mlr.press/v162/wang22d/wang22d.pdf

版权

Neural Implicit Dictionary Learning via Mixture-of-Expert Training （ICML 2022）

2022/07/15:

Paper:https://proceedings.mlr.press/v162/wang22d/wang22d.pdf
Code：https://github.com/VITA-Group/Neural-Implicit-Dict

Abstract

基于坐标的深度全连接网络表示视觉信号在拟合复杂细节和求解逆问题方面比基于离散网格的表示具有优势。然而，获取这种连续的隐式神经表示(INR)需要对大量信号测量进行繁琐的逐场景训练，这限制了它的实用性。在本文中，我们提出了一个通用的INR框架，通过学习神经隐式字典来实现数据效率和训练效率(NID)从一个数据集合和将INR表示为从字典中采样的基函数组合。我们的NID组装了一组基于坐标的子网，这些子网经过调优，可以跨越所需的函数空间。经过训练，通过求解编码系数，可以快速、鲁棒地获得一个不可见的场景表示。为了并行地优化一组大型网络，我们借用了混合专家(mix -of- expert, MoE)的思路，用稀疏门控机制设计和训练我们的网络。我们的实验表明，NID可以将二维图像或三维场景的重建速度提高2个数量级，并可减少98%的输入数据。我们进一步展示了NID在图像修复和遮挡去除中的各种应用，这被认为是普通INR的挑战。

1. Introduction

隐式神经表征(INRs)最近在计算机视觉和图形学中表现出了出色的多媒体信号表征性能。与传统的离散表示(在处理之前对真实信号进行采样和矢量化)不同，INR直接使用深度全连接网络(也被称为多层感知器或MLP)对坐标和信号值之间的连续映射进行参数化。这种连续的参数化能够表示更复杂和灵活的场景，而不受网格范围和分辨率的限制，以一种更紧凑和内存效率更高的方式。

然而，这种方法的一个显著缺点是，获取INR通常需要在密集测量上对神经网络进行繁琐的逐场景训练，这限制了实用性。Yu等人概括了神经辐射场(NeRF)，通过将图像特征投影到3D体积代理，然后渲染特征体积来生成新的视图。为了加快INR训练，Sitzmann等人(2020a);Tancik等人(2021)应用元学习算法根据所表示的底层信号类别学习MLP的初始权重参数。然而，这条线的工作要么很难扩展到NeRF场景之外，要么在监督不足的情况下无法产生高保真的结果。

在本文中，我们设计了一个统一的INR框架，同时实现优化和数据效率。我们认为，从少量射击测量重构INR就像求解欠定系统。受压缩感知技术的启发(Donoho, 2006)，我们将每个神经隐式函数表示为从一个过完备神经隐式字典（Neural Implicit Dictionary, NID）中采样的函数基的线性组合。与传统的宽矩阵基表示不同，NID是由一组小的神经网络参数化的，这些神经网络作为横跨整个目标函数空间的连续函数基。NID在不同场景中共享，而稀疏代码则由每个场景指定。我们首先通过在训练集中的实例类中对每个场景进行编码来联合优化NID“脱机”。转换到看不见的场景时，我们重用NID，只“在线”求解场景特定的编码系数。

为了有效扩展到我们字典中的数千个子网，我们采用混合专家（Mixture-of-Expert，MoE）训练用于NID的学习。我们将字典中的每个函数基建模为一个专家子网络，编码系数作为其门控状态。在每个前馈过程中，我们利用路由模块生成稀疏编码门，即激活少量基础专家并线性组合他们的响应。通过MoE巡林可以“一石二鸟”，构建可转移的字典并避免额外的计算开销。我们的贡献可概括如下:

我们提出了一个新的数据驱动框架来学习一个可以跨场景传输的神经隐式字典(NID)，以加速每个场景的神经编码并提高它们的性能。
NID由一组小的神经网络参数化，这些网络作为连续的函数基来跨越神经隐函数空间。通过MoE训练可以有效地完成字典学习。
我们进行了大量的实验来验证NID的有效性。在训练效率方面，我们证明了我们的方法能够达到比图像回归任务快100倍的收敛速度。为了提高数据效率，我们的NID可以减少98%的点样本重建符号距离函数，并优化一个减少90%的视图的CT图像。我们还演示了NID的更多实际应用，包括图像涂装、医学图像恢复和监控视频的瞬态目标检测。

2. Preliminaries

逆成像中的压缩感知. 压缩感知和字典学习在逆成像问题中有着广泛的应用。在经典的信号处理中，信号被离散化，用向量表示。共同目标是从 $M$ 测度 $\in \R^M$ 中重构信号(或数字图像) $\in \R^N$ ，是通过线性变换底层信号和噪声形成的: $\eta$ 。然而，A通常是高度不适定的，也就是说，测量值的数量要比未知数的数量小得多 $(M ≪ N)$ ，使得这个反向问题更具挑战性。压缩感知提供了一种求解欠定线性系统的有效方法,通过假设信号x∈RN是可压缩的，并将其表示为一组生成向量中的几个向量 $\Psi = [\psi_i, \cdot \cdot \cdot, \psi_K] \in \R^{N \times K}$ 。那么我们可以通过以下优化目标重构 $x$ :
在这里插入图片描述
其中 $\alpha \in \R^K$ 被称为稀疏系数， $||\eta||_2 \leq \varepsilon$ 代表噪声界限。人们经常用 $ℓ_1$ 替换 $ℓ_0$ 半范数来获得凸目标。生成向量Ψ可以从标准正交基中选择，或者通常从过于完整的字典中选择 $(N ≪ K)$ 。 Chen等人提出了一种由神经网络层实现的分层字典，而不是一堆张量。

隐式神经表示. 在计算机视觉和图形学中，隐式神经表示(Implicit Neural Representation)用多层感知器(MLP)参数化的连续函数取代了传统的多媒体对象的离散表示。由于这种表示是服从基于梯度的优化，以前的工作设法应用基于坐标MLPs对许多计算摄影和科学计算逆问题的影响。正式的，我们将一个函数空间的的INR表示为 $f_\theta: \R^m \to \R$ ，其连续映射 $m$ 维时空坐标(比如 $(x, y)$ ，图像中 $m = 2$ )到值空间(比如像素强度)。考虑一个函数 $\mathcal{R}:\mathcal{F} \times \Omega\to\R$ ，我们想要找到这个网络的权重 $\theta^*$ 如下：
在这里插入图片描述
其中 $\Omega$ 记录测量设置。例如，在计算机断层扫描(CT)中， $\mathcal{R}$ 称为体积投影积分， $\Omega$ 指定了射线参数和相应的颜色。

混合专家训练. Shazeer为了实现更大的模型容量和更高的数据并行性，提出了一种具有动态路由的广泛神经网络。他们的方法是引入包含多个专家子网络的“混合专家”(MoE)层，并训练一个门控网络来选择一个稀疏的专家组合来处理每个输入。对于给定的输入 $x$ ，我们使用 $G (x)$ 表示门控网络的输出， $E_i(x)$ 表示第i个专家网络的输出。MoE模块的输出可以写成:
在这里插入图片描述
其中 $n$ 为专家数量， $G(x)||_0 = k$ 。在Shazeer的研究中，根据G(x)的稀疏性来节省计算。常见的稀疏化策略称为噪声top- $k$ 门控，可以表示为:
其中 $H (x)$ 合成原始门控激活， $T o p K (\cdot)$ 掩盖 $n - k$ 最小元素， $N or ma l i ze (\cdot)$ 将剩余权重的大小缩放到一个常数，可以从softmax或 $ℓ_p$ -norm归一化中选择。

3. Neural Implicit Dictionary Learning

正如我们之前讨论的，逆成像问题通常是不适定的，对于内隐神经表征(INR)也是如此。此外，训练一个INR网络也很耗时。如何有效地、稳健地从少量的观察中获取INR，一石二鸟，仍然没有研究。在本节中，我们通过展示我们的方法神经隐式字典(NID)来回答这个问题，它是从数据集合中先验学习到的，可以重用来快速拟合INR。我们将首先转换两层SIREN并指出当前设计的局限性。然后，我们将详细阐述我们提出的模型和技术，以提高其通用性和稳定性。

3.1 Motivation by Two-Layer SIREN

通常的INR架构是纯粹的带有周期激活函数的多层感知机（MLP）。傅里叶特征映射(FFM) 在第一线性层之后放置正弦变换，而正弦表示网络(SIREN)用正弦函数替换每一个非线性激活。为了简单起见，我们只考虑两层INR架构来统一FFM和SIREN的公式。为了与第2节的表示法一致，我们用函数 $f: R_m→R$ 表示INR，表达式如下:
在这里插入图片描述
其中 $\omega_i \in \R^m， b_i \in \R, \forall i \in [n]$ 并且 $\alpha \in \R^n, c \in \R$ ，它们全都是网络的参数，还有映射 $\gamma(\cdot)$ （公式6也叫做位置嵌入）。经过简单改写，可以得到：

由此我们发现方程6-7可以被认为是反哈特利(傅里叶)变换的近似(参考公式9)。SIREN第一层在傅里叶域采样频带的权重，并通过正弦激活函数将空间位置映射到余弦-正弦小波上。然后训练一个两层SIREN相当于找到最佳频率支持和拟合的系数在哈特利(傅里叶)变换。

虽然三角多项式在连续函数空间中是密集的，但余弦-正弦波可能并不总是理想的，因为用有限神经元逼近任意精度的函数可能是不可行的。事实上，还有一些其他的方法，比如格根鲍尔基和采集装置嵌入，在不同的任务中都被证明是有用的。然而，我们认为，由于手工构建的基函数与数据分布无关，它们不能表达关于数据的内在信息，因此可能无法在不同场景中一般化。这使得每个场景的训练重新选择频率支持，并重新拟合傅立叶系数。此外，当观测数据稀缺时，正弦基在重建时也会导致严重的过拟合。
在这里插入图片描述

3.2 Learning Implicit Function Basis

在解释了为什么目前的INR架构泛化不好，需要大量的测量之后，我们打算引入稀疏字典表示的原理到INR中。字典包含一组度量信号空间的过完备基。与手工制作的基或小波相反，字典通常是从数据集中学习得到。由于它知道要表示的底层信号的分布，使用字典表示信号具有更高的稀疏性、鲁棒性和泛化能力。尽管字典学习算法在Aharon等人(2006)中得到了很好的建立，但在连续域上设计符合INR的字典远非易事。形式上，我们想要获得一组连续的映射： $b_i: \R^m \to \R,\forall i\in[n]$ 对处于目标信号空间 $\mathcal{F}$ 的任意信号 $KaTeX parse error: Expected group after '^' at position 15: f: \R^m \to \R^̲$ ，存在一组稀疏编码 $\alpha \in \R^n$ 可以表示这个信号：
在这里插入图片描述
n是字典的大小， $\alpha$ 满足 $\alpha \leq k, k<<n.$ 我们用用小坐标网络参数化字典中的每个分量 $b_{\theta_1}, ..., b_{\theta_n}$ ， $\theta_i$ 表示第 $i$ 个元素的网络权值。我们称这组函数基为神经隐式字典(NID)。

我们采用端到端优化方案来学习NID。在训练阶段，我们联合优化NID内部的子网和每个实例分配的稀疏编码。假设我们拥有一个数据集合，其中包含从T个多媒体实例中获取的测量数据(比如T个图像或物体的几何图形)。 $\mathcal{D} = \{\Omega^{(i)} \in \R^{t_i \times m}, Y^{(i)} \in \R^{t_i}\}^T_{i=1}$ ，其中 $Ω^{(i)}$ 为观测参数(图像在二维格上的坐标)， $m$ 是这些参数的维数， $Y^{(i)}$ 为实测观测值(表示对应的RGB颜色)， $T_i$ 表示第 $i$ 个实例的观察次数。然后我们在训练数据集上优化以下目标:
在这里插入图片描述
其中 $f^{(i)} \in \mathcal{F}$ 是INR的第i个实例， $\mathcal{R}(f|\omega):\mathcal{F} \times \Omega \to \R$ 是函数测量函数 $f$ 相对于一组参数 $\omega$ 。 $\mathcal{L}(\cdot)$ 是与下游任务相关的损失函数。 $\mathcal{P}(\cdot)$ 对稀疏编码进行正则化处理，实验中 $\lambda$ 设置为0.01。 除了稀疏惩罚，我们还考虑了所有编码之间的一些联合先验分布，这将在第3.3节中讨论。 当转移到看不见的场景时，我们固定NID基函数 $\{b_{\theta_i}\}^N_{i=1}$ 和只需计算对应的稀疏编码即可使式11中的目标最小化。

3.3 Training Thousands of Subnetworks with Mixture-of-Expert Layer

由于样本依赖稀疏性，直接调用数千个网络会导致效率低下和冗余。此外，这种暴力计算策略不能正确地利用现代计算架构在并行性方面的优势。正如我们在第2节中介绍的，混合专家(MoE)训练系统提供了一种条件计算机制，可以在异常庞大的网络上实现稳定和并行训练。我们注意到，MoE层和NID在底层运行范例中有内在的相似性。因此，我们建议利用一个MoE层来表示一个包含数千个隐式函数基的NID。具体来说，NID中的每个元素都是一个专家网络MoE层，稀疏编码对门控状态进行编码。下面我们将逐一阐述基于MoE的NID层的实现细节:

专家网络： 每个专家网络都是一个小的SIREN或FFM网络。为了减少整个MoE层的规模，我们在所有专家网络中共享位置嵌入和前4层。然后我们为每个专家添加两个独立的层。我们注意到这个设计可以使两个专家共享早期的特性，并调整他们的一致性。

门控网络： 生成的门控被用作INR实例的稀疏编码。我们提供了两种选择来获得门控值:（1）我们采用编码器网络作为门控函数，将(部分)观测值映射到预稀疏化权重。对于类似网格的模态，我们利用卷积神经网络(CNN)。对于非结构化点模态，我们采用集合编码器。（2）我们还可以利用一个查找表，其中每个场景都分配了一个可训练的嵌入，并与专家网络联合优化。在计算出原始的门控权值后，我们再用公式3中的方法对门进行稀疏化。与Shazeer等人(2017)不同，我们没有对门控对数进行softmax归一化。相反，我们根据选择权值的绝对值对权重进行排序，并通过其ℓ2规范对权重进行规范化。与上述两种门控函数相比，基于编码器的门控网络在节省参数和无需重新拟合稀疏编码的即时推理方面具有优势。然而，无头嵌入在训练效率和实现更好的收敛方面表现出更强的实力。

图像块级别的字典： 构造一个过完备的字典来表示整个信号是不可能的。我们采用步进的方式，通过将坐标空间划分为规则的和重叠的补丁，并为每个块分配单独的NID。我们通过设置多个MoE层来实现这一点，并根据它们所在的区域将坐标输入分派给相应的MoE。

利用平衡和预热： 据观察，门脉网络倾向于收敛到一种自我强化的不平衡状态，在这种状态下，它总是为相同的少数专家产生较大的权重。为了解决这个问题，我们在Beigio和Shaazeer的基础上对稀疏编码的变异系数(CV)进行了正则化。CV惩罚定义为:
在这里插入图片描述
在整个训练集上评估这种正则化是不可行的。相反，我们估计和最小化每批次的损失。我们还发现，硬稀疏化将阻止梯度反向传播，这导致了与初始阶段相等的固定门控状态。为了解决这个副作用，我们首先放弃硬阈值，在编码中用L1惩罚 $P_{l_1} = \sum ^{T}_{i=1} ||\alpha^{(i)}||_1$ 训练MoE层，然后进行稀疏化。

4. Experiments and Applications

在本节中，我们通过展示场景表示中的几个应用来演示NID的前景。

4.1 Instant Image Regression

INR的一个典型例子是用MLP回归二维图像，该MLP在二维晶格上接受坐标，并使用RGB颜色进行监督。给一个 $\times D$ 大小的图像 $\textbf{Y} \in \R^{D \times D \times 3}$ ，则目标为通过优化 $||f(i,j)-\textbf{Y}_{ij}||_2$ ，在每个像素 $\in [0,D]^2$ 点近似映射 $f:\R^2 \to \R^3$ ，其中 $f_{\theta}=\sum_i \alpha_a b_{\theta_i}$ 。在传统的训练方案中，每幅图像经过数千次迭代后被编码到一个专用网络中。相反，我们打算使用NID来立即获得这样的INR，不需要训练或只需要几个步骤的梯度下降。

实验设置. 我们选择在CelebA人脸数据集上训练NID，其中每个图像裁剪为178 × 178。我们的NID包含4096个专家，每个专家共享一个4层的256个隐藏维度的骨干，并拥有一个单独的32维输出层。我们采用4个残差卷积块作为门控网络。在训练过程中，门控网络通过字典进行调整。NID内部已经预热10个epoch，然后开始只保留每个输入的顶级128名专家，共5000个epoch。在推断阶段，我们让门控网络直接输出测试图像的稀疏编码。为了进一步提高精度，我们利用输出作为初始化，然后使用梯度下降法在固定字典的情况下进一步优化稀疏编码。我们将我们的方法与FFM、SIREN 和Meta进行了对比。在表1中，我们展示了PSRN，SSIM和LPIPS指标，在这四个模型在有限的训练步长设置下的测试集(500张图像)，其中FFM和SIREN只训练100步。我们还在表1中给出了推断时间指标，包括表示500张图像的参数数量、呈现单个图像的FLOPs，以及每秒呈现图像的测量吞吐量。在图2，我们放大每个模型的初始化和早期训练阶段的结果。
在这里插入图片描述

结果. 表1的结果表明，即使没有后续的优化步骤，NID (k = 256)在所有比较模型中也能取得最好的性能。使用最初推断的、相对稀疏的编码，NID (k = 128)也可以超过FFM和SIREN(经过100步训练)。与基于元学习的方法相比，我们的模型在相同的优化步骤中可以显著优于它们(≥5dB)。我们注意到，由于NID只进一步调整编码向量，计算和收敛速度都比微调整个网络参数的元学习方法快得多。图2说明了从门控网络推断出的初始稀疏编码足以产生高精度的重构图像。还有3个梯度下降步骤(这通常需要5秒)，它可以达到为每个场景单独训练INR的良好质量(这需要10分钟)。我们认为，虽然元学习能够找到一个合理的起点，但后续的优化是敏感的鞍点，其中表示的图像是模糊和噪声。在模型效率方面，我们的NID比单mlp表示紧凑8倍，因为NID在所有样本之间共享字典，只需要额外记录一个较小的门控网络。此外，我们的MoE实现带来了显著的吞吐量增益，因为它使推理具有高度的并行性。作者指出元学习只能提供一个初始化。为了表示所有的测试图像，必须分别保存所有密集的参数。横向比较，密集的NID比稀疏的NID更具表现力，但会牺牲效率。

4.2 Facial Image Inpainting

图像修复恢复图像损坏的遮挡。此前工作只建立基于离散表示的算法。在本节中，我们演示了在连续INR上直接进行图像修补。给定一个已损坏的图像 $Y\in \R^{D×D×3}$ ，我们通过将Y投影到字典组件构成的一些低维线性(函数)子空间上来去除异常值。我们通过尝试将已损坏的图像表示为预先训练的NID的线性组合，同时加强该组合的稀疏性来实现这一点。特别地，我们固定公式11中的字典并且选择 $L_1$ 正则作为损失函数，我们假设噪声稀疏地分布在图像上。

实验设置. 我们通过随机粘贴一个48 × 48的彩色补丁来破坏图像。为了恢复图像，我们借用4.1节中在CelebA数据集上训练得到的字典。但是，我们没有利用门控网络来合成稀疏编码。相反，我们直接优化随机初始化代码，以最小化公式11。我们的基线包括SIREN和Meta 。我们将其损失函数改为ℓ1范数以保持一致。为了用Meta进行图像补全，我们从它的学习初始化开始，并朝着目标优化两步。

结果. 图像修复的结果如图4所示。我们发现:1)SIREN对所有给定信号进行了过度匹配，因为它不依赖于任何图像先验。2)基于元学习的方法通过初始化一个理想的最优网络隐式地提出了一个先验。然而，我们的实验表明，学习的初始化对于特定的数据分布是特别的。当加入噪声时，Meta变得不稳定并收敛到平凡解。我们的NID通过准确定位和去除遮挡模式，显示出更强的鲁棒性。
在这里插入图片描述

4.3 Self-Supervised Surveillance Video Analysis

在本节中，我们建立了一种基于NID对监控视频进行前景和背景分解的自监督算法。给定一组视频帧 $\{Y^{(t)}\in \R^{D \times D \times 3}\}^T_{t=1}$ ，我们的目标是找到一个连续映射 $f (x, y, t)$ ，表示可以分解为: $f(x, y, t) = f_{X}(x, y, t)+ f_{E}(x, y, t)$ ，其中 $f_X$ 是背景， $f_E$ 是瞬态噪声(e.g. 行人)。我们借用了鲁棒主成分分析(RPCA)的想法，其中背景假设是低秩的，噪声假设是稀疏的。尽管已经建立了离散表示，但在连续域建模“低秩”仍然难以捉摸。我们假设每个时间戳上的fX(x, y, t)在很大程度上由同一组专家网络表示，例如，稀疏编码中的非零元素集中在几个点上，编码权服从衰减分布。在数学上，我们首先通过解耦空间坐标和时间来重写 $f$ ： $f(x,y,t)=\sum_{i} \alpha_i(t)b_{\theta_i}(x,y)$ ，每个时间切片共享相同的字典，并且稀疏编码 $α_i(t)$ 依赖于时间戳。然后我们最小化:
在这里插入图片描述
其中，第二项惩罚α(t)的稀疏性根据指数增长曲线(由β控制)，这意味着I越大，稀疏性越强。因此，每个时间切片在很大程度上由NID中的前几个少量组件来近似，这模拟了连续函数的“低秩”表示的本质。

结果. 我们在BMC-Real数据集上测试了上述算法。在我们的实现中, $α (t)$ 也被另一个MLP参数化，我们选择 $β = 0.5$ 。我们的定性结果如图3所示。通过模拟RPCA的行为，验证了该算法能够正确地分解背景和前景。这个应用进一步展示了我们NID的潜力，能够将与子空间学习技术相结合。
在这里插入图片描述

4.4 Computed Tomography Reconstruction

计算机断层扫描(CT)是一种广泛使用的医学成像技术，捕捉身体组织的体积密度的投影测量。这种成像形式可以如下公式:
在这里插入图片描述
其中 $r$ 是图像平面上的位置，其中 $\phi$ 是观察角度，δ(·)被称为Dirac delta函数。由于测量量有限，通过对该积分求逆来重构 $f$ 通常是不适定的。我们建议通过使用NID作为正则化来缩小解空间。

实验设置. 我们在Shepp-Logan成像数据集上进行实验，该数据带有2048个随机生成的128 × 128个CT。我们直接对1k张CT图像训练一个NID，在此期间，专家总数为1024，每个CT选择
128/256的专家在CT场景中，选择一个查表作为我们的门控网络。之后，我们随机抽样128个观测角度，合成128条平行射线束的二维积分投影作为测量。为了证明我们的方法在有限的观测数下的有效性，我们对128个视图分别下采样了12.5%(16个)和6.25%(8个)。同样，我们选择FFM ，SIREN 和Meta作为我们的基线。

结果. 定量结果列于表2。我们观察到，我们的NID在表2的两个指标对比中始终领先。当采样视图足够多时，NID获得最高的PSNR，而当视图减少时，我们的NID在SSIM中具有优势。我们还在图5中绘制了定性结果。我们发现，我们的NID可以正则化重构结果，使其光滑和形状一致，这导致较少的缺失楔形伪影。
在这里插入图片描述

5. Related Work

广义隐式神经表示. 众所周知，隐式神经表示的交叉场景泛化能力有限。Tancik提出基于元学习的算法，以更好地初始化INR权值，快速收敛。一些工作引入可学习的潜在嵌入对场景特定信息进行编码，并将INR条件设置在潜在码上，实现可一般化表示。在Sitzmann等人(2020b)中，作者进一步利用超网络(Ha等人，2016)直接从输入预测INR权重。与基于条件字段或超网络的方法相比，基于稀疏编码的NID只需最后一层，适应速度更快。字典表示将潜在空间之间的映射简化为加性基上的稀疏线性组合，可以更容易地操纵，也有助于可转移性。最后但并非最不重要的是，众所周知，施加稀疏性可以帮助克服不适定逆问题中的噪声。

混合专家(MoE). MoE根据路由策略，执行由一组并行子模型组成的条件计算(又名专家).近年的研究通过采用稀疏门控策略改善MoE，根据门控网络给出的分数选择最优秀的候选人，只激活少数专家。这在模型容量、训练时间和实现性能方面带来了巨大的优势。Fedus等人甚至构建了包含数万亿参数的语言模型。为了稳定训练，一些研究探索了辅助负载损失，以平衡专家的选择。另外，Lewis等人通过解决线性分配问题鼓励平衡路由。

6. Conclusion

我们提出了从数据收集中学习的神经隐式字典(NID)，将信号表示为内部函数基的稀疏组合。与传统的字典不同，我们的NID包含连续的函数基，是由子网络参数化得到的。为了有效地培训数千个网络，我们采用MoE训练策略。我们的NID具有较高的紧凑性、鲁棒性和通用性。我们的实验证明了NID在即时回归、图像修复、视频分解和从稀疏观测重构方面的应用前景。我们未来的工作可能会引入子空间学习理论来分析NID。