Streamable Neural Fields

论文地址: https://arxiv.org/abs/2207.09663v1
代码地址: https://github.com/jwcho5576/streamable_nf

现有问题
提出方法
方法优势


Abstract

  • 神经场已经成为一种新的数据表征范式,并在各种信号表征中取得了显著的成功。由于它们将信号保存在网络参数中,通过发送和接收整个模型参数来进行数据传输,使得这一新兴技术无法在许多实际场景中使用。我们提出了流化神经场,这是一个由不同宽度的可执行子网络组成的单个模型。提出的架构和训练策略使单个网络随着时间的推移流化,并重建不同质量和不同部分的信号。例如,较小的子网络可以产生平滑的低频信号,而较大的子网络则可以表示更精细的高频信号。实验结果表明,该方法在二维图像、视频和三维 SDF 等多个领域都是有效的。最后,我们证明了提出的方法通过参数共享,提高了训练的稳定性。

1. Introduction

  • 神经场 [49] 已经可以很好的表征现实世界的信号。它使用多层感知机 MLP,将空间或时间坐标作为输入,并产生任意分辨率的信号。由于近年来输入特征编码 [28,44,55] 和周期激活函数 [39] 等技术的进步,它可以如实的重构复杂的高频信号。在图像 [4,22,29],3D形状 [2,5,7,11,15,27,31,38] 和视图合成 [3,20,23,28,30,36,53] 等信号表征方面都取得了巨大的成功。

  • 目前,仍有许多挑战阻碍了这项新兴技术在实际应用场景中的应用。在神经网络领域,网络本身就是一个数据表征 [6],信号的传输是通过发送和接收整个模型参数来完成的。因此,寻找最佳的模型大小对于降低延迟和提高吞吐量至关重要。一种简单的方法是通过增加网络的深度和宽度,多次训练不同大小的网络。然而,对于深度神经网络来说,即使训练单个网络也需要很长时间来收敛,这不是一个负担得起的解决方案。为不同大小和类型的信号,预先确定各种网络配置 (例如,宽度和深度) 也是很有吸引力的,但这也不是一个可行的解决方案,因为所需参数的大小是由信号的复杂性决定的,而不是数据的大小或类型。

  • 此外,原始信号往往需要以不同的分辨率或质量进行传输。例如,在流媒体服务中,用户希望根据自己的情况接收到不同质量的信号。在家中接收到高分辨率的视频,而在移动设备上接收到质量较低的视频。但实时按需编码是不可行的,因为它需要在深度神经网络上进行长延迟梯度下降。作为一种替代方法,我们可以预先在本地存储多个尺寸的网络,表征不同质量的信号。然而,这是对存储空间的浪费,在媒体数据呈指数级增长的情况下,这不是一个可接受的解决方案。

  • 与大多数标准压缩算法 (如 JPEG [32] 和 MPEG [10] ) 不同,这些算法被设计成可以很容易地分解成更小的块以供潜在的用户使用,包括流媒体服务或在糟糕的网络连接中进行部分重构。但神经场不能解耦成有意义的块,所有的权值参数都是高度交织在一起的,如果缺失了其中的一小部分,就会导致信号重构灾难性的失败

  • 我们提出可流化神经场来克服上述问题。我们提出的训练技术和架构设计,可使单个被训练过的网络,能够被分离成不同宽度的可执行子网络。通过单个的训练过程,可以生成单个网络的参数,这些参数随着时间的推移是可流化的,并且能够重构不同质量的信号 (图1)。每个子网络负责表示部分信号。例如,一个小的子网络只能产生特定质量或特定时间 (或空间) 范围内的信号。包含较窄子网络的较宽网络可以表示较窄子网络中没有编码的额外信号。通过可流化网络参数 (从较窄的子网络到较宽的子网络),信号将在视觉质量和时间 (或空间) 顺序上逐步重建,这在许多有用的场景中是可取的。
    用可流化神经场表征变化的信号
    [图1. 用可流化神经场表征变化的信号。它是一个可在不同宽度上执行的单一神经网络,可以重构不同的信号域。光谱增长: 更大的网络重构更多的高频细节。空间增长: 更大的网络重建更多的像素位置。时间增长: 更大的网络重构更多的视频帧。]

  • 总之,我们提出了一个单一的神经网络,可以表征多种视觉质量和空间 (或时间) 范围,并在流线上解码信号。提出的网络结构和训练策略最大限度地利用了学习到的部分信号,将其在子网络中保存。更大的网络明确地利用了它们,使得训练过程更稳定,重构性能提高,参数有效性提高。我们展示了该方法在各种信号中的有效性,包括图像、视频和 3D 形状。

2. 相关工作

  • 神经场和光谱偏差:神经场,也被称为基于坐标的神经表征或隐式神经表征,在表征自然信号方面表现出了巨大的成功,如图像 [4,22,29],视频 [19,39],音频 [39],3D形状 [2,5,7,11,15,27,31,38] 和视图合成 [3,20,23,28,30,36,53]。由于训练过程中的低维输入和频谱偏差,他们很难表示高频细节 [33,44]。傅里叶特征编码 [28,44] 和周期性非线性激活函数 [39] 使网络能够表示精细的细节,并已取得成功。尽管在许多实际任务中,频谱偏差是一种令人烦躁的训练行为,但我们的工作利用这一现象实现了一个可以用单个神经网络解码各种质量信号的神经场。

  • 学习分解信号:一些关于神经场的研究使用体素网格 [9,40,50]、潜在编码 [4,25] 和一组神经网络 [34] 来表示空间分割的信号。基于体素的方法 [9,40,50] 直接将辐射场放入到特征网格中。特征网格以流线形式传输,但其尺寸较大,不利于可流化和压缩。另一个工作 [4,25] 将图像分成快,并将它们编码为潜在向量。虽然潜在向量比特征网格小得多,但在客户端需要一个解码器。我们的方法允许网络参数可流化,而不是潜在向量,并且不需要额外的解码器来重建信号。KiloNeRF [34] 将一个网络细分为许多小的网络。与我们的方法类似,参数是可流化的。然而,成千上万的网络应该被独立训练。此外,我们还发现,学习具有独立模型的空间分割场景会产生线条 (图10),而我们的方法无缝地重建了场景。

  • 在另一种方法中,信号在频域内进行划分,并进行层次学习。Takikawa等人 [41] 提出学习类似于 [42] 的多分辨率码本,允许可变比特率流。与我们的想法类似,最近的著作 [17,21,37] 建议用一个单独的网络来表示具有不同带宽的信号。输入层横向连接到每个中间层,中间层 [17] (或额外的输出 [21,37] )层重构限带信号。为了约束带宽,[21,37] 对每个输入层的参数进行初始化和固定,使其均匀分布在一定的频率范围内。渐进隐式网络(Progressive implicit networks, PINs) [17] 对采样频率进行升序排序,将其划分为子集,每个子集作为傅里叶编码 [28,44] 的频率。虽然这些工作 [17,21,37] 与我们的方法有一些相似之处,但也存在显著的差异。首先,我们利用频谱偏差来学习在网络容量有限的情况下的最佳频率带宽,而 [21,37] 则手动限制带宽,这可能会导致网络容量的低效利用。其次,我们的方法与输入编码方法无关,而 [17] 为特定的输入编码方法设计了定制的算法。最后,我们还建议增加网络的宽度而不是深度 [17,21,37]。

  • 动态神经网络:与传统的静态结构和大小的神经网络不同,动态神经网络的尺寸可以在训练和推理过程中动态地扩大或缩小。它们可以适应各种计算环境,并在效率和精度之间实现平衡。与我们的工作相关的动态神经网络的一个分支是 slimmable neural networks(SNN) [52],它在训练过程中动态扩展卷积滤波器的通道宽度。在SNN中,无需重新训练每个不同的网络结构,该模型可用于多个预定义的宽度。通过知识蒸馏 [14] 和参数共享,每个训练后的子网络的性能都与单个训练后的模型相似或更好。

  • 在终身学习 [45] 领域,神经网络从一系列多任务中学习。渐进神经网络 [35] 在将知识从之前的任务转移到新的任务时动态扩展,以处理更多的任务并克服灾难性遗忘行为 [12,24]。在这项工作中,我们专注于表征信号,并提出了一种神经场,可以动态地增加网络大小,以表示更高质量或更广范围的信号,同时保留来自小子网的表征。

3. 可流化神经场

  • 本节解释了由不同宽度的可执行子网络组成的可流化神经场的训练技术架构设计。一旦训练完成,单个的网络可以呈现不同质量的信号,而无需再训练(频谱增长)。较窄的子网络保存低频信号,较宽的子网络包含高频细节。这个功能可以支持许多实际的应用,通过选择宽度来按需提供所要求的信号质量。通常,由于网络参数是高度纠缠的,所以没有直接的解决方案来手动划分权重来实现这一目标。

  • 此外,可流化神经场还支持空间和时间增长。每个可执行的子网络只能代表整个信号的特定部分。如图1所示,人们希望在一段时间内连续发送或接收视频,而且人们更喜欢接收大图像的一小部分。它将有利于传输大尺寸信号,如高分辨率图像或视频。

3.1 网络架构和渐进训练

  • 我们的网络架构和训练进程如图 2 (a) 所示。该模型从一个小而窄的 MLP 开始训练,以预测目标信号。一旦收敛,它会以任意大小增长宽度。类似于渐进式神经网络架构 [35],我们去掉了连接新添加的隐藏单元和前一个单元的权值,从而防止添加的单元影响小网络的输出。我们还冻结了小网络中的权重,只更新新添加的网络参数。这种渐进式训练策略鼓励大网络使用前一个小网络学习到的知识,只学习小网络无法捕捉到的残余信号。我们不断迭代这个过程,直到满足所需的信号质量或空间/时间大小。

  • 渐进训练 vs 精细训练:我们的一般目的是创建一个可在不同宽度上执行的单个网络。我们发现在精细网络 [52] 中的训练技术也可以达到图像和视频拟合任务的目标。与提出的渐进式训练不同,它在预定义的宽度上迭代,取相应宽度的子网络,并使用目标信号预测计算损失。这些子网络的梯度不断累积,直到它访问每一个宽度,权重同时更新。实验结果表明,递进训练在重构质量和收敛速度方面优于 slimmable 训练。一种可能的解释是,更广泛的网络的目标残留信号在训练过程中发生变化,导致收敛速度变慢。渐进训练算法和精细训练算法的细节分别在算法1算法2中描述。
    在这里插入图片描述

  • 训练损失:在每一个任务中,训练目标都是最小化预测与真实目标值之间的均方误差(MSE):
    min ⁡ θ 1 N ∑ i = 1 N ∥ f θ ( x i ) − y i ∥ 2 2 (1) \min_{\theta}\frac{1}{N}\sum_{i=1}^{N}\|f_\theta(x_i)-y_i\|_2^2\tag{1} θminN1i=1Nfθ(xi)yi22(1)
    其中 { ( x i , y i ) } i = 1 N \{(x_i,y_i)\}_{i=1}^{N} {(xi,yi)}i=1N 为图像信号(如RGB颜色)的坐标和对应的信号值对,如 x i ∈ R 2 , y i ∈ R 3 x_i\in\mathbb{R}^2, y_i\in\mathbb{R}^3 xiR2,yiR3 f θ f_\theta fθ是一个以 θ \theta θ为参数的神经网络。对于光谱增长,目标信号固定在 y i y_i yi上。另一方面,对于空间和时间增长,我们将输入坐标和真实信号划分为每个网络所需的大小来表示。例如,要只表示某个子网络的特定部分,我们的目标变为:
    min ⁡ θ 1 N ( ∑ i ∉ S ∥ f θ ( x i ) ∥ 2 2 + ∑ i ∈ S ∥ f θ ( x i ) − y i ∥ 2 2 ) (2) \min_{\theta}\frac{1}{N}(\sum_{i\notin S}\|f_\theta(x_i)\|_2^2 + \sum_{i\in S}\|f_\theta(x_i)-y_i\|_2^2)\tag{2} θminN1(i/Sfθ(xi)22+iSfθ(xi)yi22)(2)
    其中 S 是属于该部分的索引集合。我们训练网络对不属于感兴趣部分的坐标位置预测零。我们根据经验发现,Eq. 2 中的第一项对于无缝重建整个信号是至关重要的。该网络通常预测不属于训练坐标的位置的垃圾输出。当我们缝合信号的不同部分时,它会在边界区域造成严重的伪影。

  • 初始化:在使用周期性激活时,需要仔细心的初始化,以实现高性能和收敛速度。图2 (b) 为建议的初始化方案。我们在SIREN [39] 中使用了侧向连接的初始化方法: w ∼ U ( − 6 / n , 6 / n ) w\sim\mathcal{U}(-\sqrt{6/n},\sqrt{6/n}) wU(6/n ,6/n ),其中 n 为某一层的输入神经元数量。它帮助网络维护整个层的激活分布。新添加的神经元之间连接的其余权重被设为零。因此,在训练过程的开始,只有来自小子网络的信息流动。它将鼓励大型网络首先利用小型网络的知识,并防止新添加的参数学习小型网络已经学习的冗余信号。 实验结果表明,该方法提高了网络参数效率,提高了收敛速度。
    在这里插入图片描述
    [图2. (a)可流化神经场的网络结构和训练过程。当对每个子网络进行训练时,它可以将宽度增加到任意大小。为了保持每个训练过的子网络的输出,之前的权值保持冻结。(b)对新增权值进行参数初始化。将横向连接 (红色) 保留为默认初始化,其余权重 (绿色) 初始化为零,以便快速收敛。我们使用SIREN初始化 [39] 作为默认值。]

3.2 可流化神经场的频谱分解

  • 在本节中,我们分析一个已训练的可流化神经场,通过频谱偏差 [33,44] 的长度。在使用简单 MLP 的神经场中,最终输出是前一层输出的加权和 (假设输出层没有激活函数)。任何信号都可以表示为不同频率分量的和,理论上可以给最后一层的权重矩阵赋值,这样随着宽度的增加,最终输出可以逐步表示更高的频率分量。

  • 本文提出的渐进式训练方案没有修改之前学习的子网络输出,这意味着新添加的隐藏单元只表示剩余信号 (图3),频谱偏差[33,44] 表明网络优先学习信号的低频部分。因此,递进训练后的窄子网代表低频信号,宽网络保留高频细节。全连接神经网络的输出值是最终隐藏激活的线性组合。我们的模型逐步积累每个子网络学习到的最终隐藏激活。更正式地,我们可以将 MLP 的输出层表示为:
    y = f θ ( x ) = ∑ j = 1 d w j ϕ j ( x ) = ∑ j = 1 s w j ϕ j ( x ) ⏟ l o w f r e q u e n c y r e c o n s t u r c t i o n + ∑ k = s + 1 d w k ϕ k ( x ) ⏟ h i g h f r e q u e n c y r e s i d u a l (3) y=f_\theta(x)=\sum_{j=1}^{d}w_j\phi_j(x)=\begin{matrix} \underbrace{\sum_{j=1}^{s}w_j\phi_j(x)}\\low frequency \\reconsturction\end{matrix}+\begin{matrix} \underbrace{\sum_{k=s+1}^{d}w_k\phi_k(x)}\\high frequency \\residual\end{matrix}\tag{3} y=fθ(x)=j=1dwjϕj(x)= j=1swjϕj(x)lowfrequencyreconsturction+ k=s+1dwkϕk(x)highfrequencyresidual(3)

y = f θ ( x ) = ∑ i = 1 d ∑ j = 1 w w j i ϕ j i ( x ) = ∑ i = 1 s ∑ j = 1 w w j i ϕ j i ( x ) ⏟ l o w f r e q u e n c y r e c o n s t u r c t i o n + ∑ k = s + 1 d ∑ j = 1 w w j k ϕ j k ( x ) ⏟ h i g h f r e q u e n c y r e s i d u a l (3) y = f_\theta(x) = \sum_{i=1}^d\sum_{j=1}^ww_j^i\phi_j^i(x) = \begin{matrix} \underbrace{\sum_{i=1}^s\sum_{j=1}^{w}w_j^i\phi_j^i(x)}\\low frequency \\reconsturction\end{matrix}+\begin{matrix} \underbrace{\sum_{k=s+1}^d\sum_{j=1}^{w}w_j^k\phi_j^k(x)}\\high frequency \\residual\end{matrix}\tag{3} y=fθ(x)=i=1dj=1wwjiϕji(x)= i=1sj=1wwjiϕji(x)lowfrequencyreconsturction+ k=s+1dj=1wwjkϕjk(x)highfrequencyresidual(3)

y = f θ ( x , m , n ) = ∑ i = 1 m ∑ j = 1 n w j i ϕ j i ( x ) = ∑ i = 1 s ∑ j = 1 n w j i ϕ j i ( x ) ⏟ l o w f r e q u e n c y r e c o n s t u r c t i o n + ∑ k = s + 1 m ∑ j = 1 n w j k ϕ j k ( x ) ⏟ h i g h f r e q u e n c y r e s i d u a l (3) y = f_\theta(x,m,n) = \sum_{i=1}^m\sum_{j=1}^nw_j^i\phi_j^i(x) = \begin{matrix} \underbrace{\sum_{i=1}^s\sum_{j=1}^nw_j^i\phi_j^i(x)}\\low frequency \\reconsturction\end{matrix}+\begin{matrix} \underbrace{\sum_{k=s+1}^m\sum_{j=1}^nw_j^k\phi_j^k(x)}\\high frequency \\residual\end{matrix}\tag{3} y=fθ(x,m,n)=i=1mj=1nwjiϕji(x)= i=1sj=1nwjiϕji(x)lowfrequencyreconsturction+ k=s+1mj=1nwjkϕjk(x)highfrequencyresidual(3)

其中 x ∈ R n x\in\mathbb{R}^n xRn 为 n 维坐标, y ∈ R y\in\mathbb{R} yR 为单通道信号, w ∈ R d w\in\mathbb{R}^d wRd 为网络最后一层的权向量, ϕ j ( x ) \phi_j(x) ϕj(x) 为网络最后一层的第 j 个隐藏单元。等式3 的右边是一个分解为两个部分和的过程,通过下标 s (子网络的宽度) 将总和分割。我们假设在最后一层中没有偏差项。

  • 我们可以将 ϕ j \phi_j ϕj 解释为基函数,而将 w j w_j wj 解释为系数。不同于众所周知的基函数,如傅里叶基或切比雪夫多项式,我们通过渐进训练来学习基函数,不受任何约束,如傅里叶基的正交性和周期性。我们仅仅依靠 MLP 结构的诱导偏差和训练神经网络的频谱偏差来获得光谱增长神经场。

  • 质量控制:现代图像压缩算法的核心前提是人眼无法检测到高频分量。JPEG [32] 使用离散余弦变换 (DCT) 和量化矩阵去除图像中人眼无法识别的高频部分。它使用一个质量因子,根据用户的需求来决定压缩率和重构质量。随着宽度的减小,我们的可流化神经场逐渐消除高频分量。因此,选择网络的宽度来重构期望质量的信号类似于在图像压缩算法中选择质量因子。
    在这里插入图片描述
    [图3. 可流化神经场的光谱增长和残差表示。由于频谱偏差,用标准的MSE损失训练的神经网络会自然地在增加频率阶数时建立信号。较窄的子网络将首先学习低频信息,而较宽的子网络将越来越多地表征更高频率的信号,只要网络的容量允许。对最终隐层的部分权值进行修剪,输出残差信号,并将残差信号线性组合(红框)得到完整的重构。]

4. 实验

  • 我们在各种信号重构任务上测试了我们的模型:一维正弦函数、2D图像、视频和3D符号距离函数(SDF)。我们的实验设置如 图4 所示。对于频谱增长,由于不存在真实残差信号,每个单独训练的模型都被训练来重建原始目标。另一方面,对于空间/时间增长,我们将真实信号分成多个 patch /frame,并使每个模型具有相同的网络大小。然后训练每个模型来表示特定的图像 patch 或视频 frame。注意,可流化空间/时间增长的 individual 模型也可以实现序列信号传输,而频谱增长的 individual 模型则不能。
    在这里插入图片描述
    [图4. 描述我们的实验设置。上面显示的每个图像都是期望的输出信号,每个模型的参数数量都是匹配的,以便进行公平的比较。(a)频谱增长实验。真实信号是固定的。(b)空间增长实验。单独训练的模型具有恒定的网络容量。]

4.1 一维正弦函数重建

  • 在本节中,我们通过简单的 1D 标量函数拟合和 [33] 来展示信号的频谱增长。这个实验直观地展示了我们模型的残差表示。目标函数是一个映射 f : [ 0 , 1 ] → R f:[0,1]\rightarrow \mathbb{R} f:[0,1]R,由不同频率和相位角的正弦信号叠加而成。从宽度10 (隐藏层的通道大小) 开始,我们逐渐增加到 40。每个子网络训练了150 个 epoch。图5 给出了各子网络学习到的输出信号和残差。正如预期的那样,小的子网络和剩余输出的低频信号相加,得到的是大的子网络学习到的相同的信号
    在这里插入图片描述
    [图5. 一维正弦函数实验结果。(a) ~ (d):每个子网络的输出。随着宽度的增长,模型代表高频细节。黄虚线是真实信号。(e) ~ (g):各子网络与剩余输出之和。与网络从(b)到(d)的输出相同。从(h)到(j):每个子网络的剩余输出。新加入的权重重构高频残差。]

4.2 频谱增长在图像和3D形状中

  • 图像。我们在柯达数据集中的 24 幅图像上训练频谱增长。网络大小增长三倍,对四个不同的可执行子网使用相同的真实图像。我们比较了基线方法,表示为 individual,它训练不同大小的 MLP。通过调整 individual 模型中隐藏单元的数量,使其与可流化网络的子网络中的参数总数相匹配。Streamable (progressive) 表示用提出的渐进训练的可流化模型,而 Streamable (slimmable) 表示 slimmable 训练。

  • 图6(a) 为平均 PSNR, SSIM [46] 和 LPIPS [54]。正如预期的那样,扩大网络容量可以得到更高质量的图像。我们发现渐进训练策略优于slimmable 训练。我们认为在 slimmable 训练过程中,大的子网络会影响小的子网络的输出,反之则会影响最终的重构性能和收敛速度。在给定相同数量的参数的情况下,最终的重建质量与 individual 相比具有可比性。特别是当 PSNR 和SSIM 不能提供 Streamable (progressive) 模型时,LPIPS 给予了一个很好的分数。由于原始柯达图像包含无法检测到的高频成分,我们的模型消除了这些,通过频谱偏差 [33]。虽然我们的模型在 PSNR 方面不能准确地重构目标信号,但低 LPIPS 意味着它充分地代表了人类视觉感知方面的重要特征。
    在这里插入图片描述
    [图6. 频谱增长实验的定量结果。(a): 24张柯达图片的平均PSNR↑,SSIM↑,LPIPS↓ (b):3个三维形状的倒角距离(乘以1000)。]

  • 此外,频谱增长中的 individual 模型不具有可流化功能,这意味着 individual 需要更多的参数来表示不同的质量,例如 4 个 individual 模型对应4种不同的质量。表1 显示了可流化 (渐进) 模型和 individual模型之间的内存比较。我们训练柯达图像 23,并将其划分为 15 个子网络,重建 15 幅频谱增长图像。与 individual 相比,我们的流化 (渐进) 模型的内存需求增加得慢得多。随着创建更多的子网络,这两种模型之间的差异变得更大。
    在这里插入图片描述
    [表1. 包含图像质量的指示范围(第一行的PSNRs)所需参数的总数。第二行是我们模型中每个子网络的参数个数,重建上面的PSNR范围,最右边的值(195K)包含了剩下的所有数。第三行的值是对 individual模型的参数个数进行累加得到的。]

4.3 时间、空间增长

  • 图像。我们对柯达数据集中的8张图像进行了空间增长训练。网络大小增长三倍,共有四个子网络代表空间增长(水平方向)图像。我们与图4 (b) 中描述的基线进行了比较。为了进行公平的比较,模型预测与评估阶段包含期望信号的信号域进行了比较。图9 (a) 中的定量结果显示,与 individual模型相比,可流化(递进)模型具有更高的表示能力。随着宽度的增加,图像的性能下降意味着高频细节集中在图像的中心。虽然可流化(slimmable)模型落后,但由于三明治规则 [51],表示能力会随着宽度的增加而不断增加。
    在这里插入图片描述
    [图9. (a) 8张柯达图像空间增长的平均性能。(b) 7个UVG视频的平均时间增长性能。]

  • 我们还发现,由于每个网络在训练时没有考虑到整个场景,因此训练 individual 模型到空间上分离场景会在每个 patch 之间产生直线伪影(图10 (a))。由于这些线伪像很容易识别,我们认为在学习空间分解信号时,我们的方法比使用 individual模型更有优势(图10 (b))。无缝组合单独训练的场景是一个活跃的研究领域,最近的BlockNeRF [43] 必须使用额外的对齐技术,例如,反距离加权插值。
    在这里插入图片描述
    [图10. Individual训练的模型显示出直线伪影,而我们的模型在图像的空间增长中没有。]

4.4 模型在训练上的稳定性

  • 图11所示,individual模型的PSNR曲线在训练过程中明显下降然后反弹,而streamable (progressive)模型的PSNR曲线没有出现突变。我们在落点重建了最大个体模型的预测RGB值,并在图像上发现了严重的伪影(图11右侧)。这种现象并不局限于所提供的例子。当我们用24张柯达图像训练每个模型时,我们发现了19个类似的案例。
    这表明可流化(渐进)模型可以保持训练过程的稳定。
    在这里插入图片描述
    [图11. 训练过程中 individual4模型的PSNR曲线和中间重构。individual模型的PSNR曲线(蓝色)在整个训练过程中波动,而可流化 (progressive)(红色)没有波动。]

  • 由于高频分量对网络参数 [33] 的扰动很敏感,因此需要微调神经网络的权值来表示高频分量。更新整个参数将显著改变输出信号和损失值。这可能是单个模型的 PSNR 曲线波动较大的原因之一。另一方面,我们的渐进训练方法冻结了预先训练的子网络参数,只更新新加入的权值。更新部分权重会导致网络输出的微小变化,从而促进稳定的微调。

5. 限制和讨论

  • 如果一个神经网络要在不同的结构上运行,那么在训练阶段访问每个宽度是不可避免的,这需要很长的训练时间。对于快速收敛的动态增长网络,有几种建议的参数初始化方法 [8,47,48]。进一步研究优化和初始化技术以改善训练动态,可以使我们的模型更适用于现实任务。

  • 传统的神经领域的 MLPs 是黑箱模型,因此我们无法分析模型如何准确地重建所需的信号。我们模型的预测信号可以解耦为部分重构,预测输出的附加意义可以使一般机器学习和深度学习模型具有可解释性 [1,13]。我们相信,我们的工作也可以深入了解神经场的可解释性,并鼓励在社区中进一步研究神经场架构。

6. 结论

  • 我们展示了解码神经信号表征的可能性在流线上。我们的模型适用于各种信号,如图像、视频和 3D 形状,这些信号可以在质量上变化或在空间/时间上增长。与 individual 训练的模型相比,可流化神经场具有相似或更高的表征能力,并通过参数共享实现了有效的内存消耗。在不需要对多个 individual 模型进行再训练的情况下,我们的模型可以在训练过程中动态增长以寻找最优的网络容量。我们还表明,部分训练模型权重训练稳定。

个人总结

  • 神经场已经成为了一种新的数据表征方式,将信号保存在网络参数中,通过传输整个网络参数来传输数据,使得不好在实际场景中应用。
  • 本文提出了可流化神经场,网络可随着时间的推移重建不同质量或不同部分的信号。例如较小的网络产生低频信号,较大的网络产生高频信号。
  • 同时也希望网络可以在不同的场景中进行不同的质量重构。在电视使用高分辨率重建,在手机使用低分辨率重建。
  • 本文提出的可流化神经场可分离单个已训练网络为不同宽度的可执行网络。网络的参数也是随时间逐渐训练的。每个子网络只负责部分的信号。(图2)
  • 训练过程中逐层增加网络宽度,去掉了新添加单元与前面网络的权值,防止添加的单元影响小网络输出。
  • 冻结了小网络的权重,只更新新网络的参数,鼓励大网络使用小网络学习到的知识。
  • 在初始化时,使用侧向连接的初始化,新添加神经元之间权重为0。这样为了在训练开始时,只有来自于小网络的信息流动,鼓励大网络首先利用小网络的知识,防止学习小网络已经学过的荣冗余信号。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值