论文阅读：（ECCV 2022）Streamable Neural Fields

最新推荐文章于 2024-08-08 02:29:55 发布

倘若我问心无愧呢丶

最新推荐文章于 2024-08-08 02:29:55 发布

阅读量595

点赞数 2

文章标签：深度学习网络人工智能

原文链接：https://arxiv.org/abs/2207.09663

版权

ECCV2022论文介绍了StreamableNeuralFields，一种可流化神经网络架构，通过分段训练和不同宽度的子网络，实现实时信号质量和分辨率的动态扩展。该方法提高了训练稳定性，适用于图像、视频和3D信号表示，且在内存效率上优于传统独立模型。

摘要由CSDN通过智能技术生成

Streamable Neural Fields （ECCV 2022）

2022/7/26：ECCV2022刚放出来的文章，arxiv上看是7月20日挂上去的，争取今晚看完吧。光看abstract感觉就能想到两个可做的方向了。

Paper: https://arxiv.org/abs/2207.09663
Code: https://github.com/jwcho5576/streamable_nf

Abstract

神经场已经成为一种新的数据表示范式，并在各种信号表示中取得了显著的成功。由于它们将信号保存在网络参数中，通过发送和接收整个模型参数来进行数据传输，使得这一新兴技术无法在许多实际场景中使用。我们提出了可流神经场，这是一个由不同宽度的可执行子网络组成的单一模型。提出的架构和训练技术使单个网络随着时间的推移可流化，并重建不同质量和信号的部分。例如，较小的子网络可以产生平滑的低频信号，而较大的子网络则可以表示精细的细节。
实验结果表明，该方法在二维图像、视频和三维符号距离函数等多个领域都是有效的。最后，我们证明了我们提出的方法提高训练的稳定性，利用参数共享。

1. Introduction

神经场[49]已经成为现实世界信号的强大代表。它使用多层感知器(MLP)，将输入作为空间或时间坐标，并产生任意分辨率的信号值。由于近年来输入特征编码[28,44,55]和周期激活函数[39]等技术的进步，它可以忠实地重构复杂的高频信号.它在各种信号表示中取得了巨大的成功，如图像[4，22,29]， 3D形状[2,5,7,11,15,27,31,38]和新颖的视图合成[3,20,23,28，30,36,53]。

目前仍有许多挑战阻碍了这项新兴技术在实际应用场景中的应用。在神经网络领域，网络本身就是一个数据表示(信号作为神经网络的参数存储)，信号的传输是通过发送和接收整个模型参数来完成的。因此，寻找最佳的模型大小对于降低延迟和提高吞吐量至关重要。一种简单的方法是通过增加深度和宽度多次训练不同大小的网络。然而，对于深度神经网络来说，即使训练单个网络也需要很长时间来收敛，这不是一个负担得起的解决方案。人们很容易预先确定各种网络配置
对于不同大小和类型的信号(如宽度和深度)，这也不是一个可行的解决方案，因为所需参数的大小是由信号的复杂性决定的，而不是数据的大小或类型。

此外，原始信号往往需要以不同的分辨率或质量进行传输。例如，在流媒体服务中，用户希望根据自己的情况接收到不同质量的信号，例如在家中接收到高分辨率的视频，而在移动设备上接收到的质量较低。实时按需编码是不可行的，因为它需要在深度神经网络上进行长延迟梯度下降。作为一种替代方法，我们可以预先在本地存储代表不同质量信号的多个大小的网络。然而，这是对存储空间的浪费，而且在媒体数据呈指数级增长的情况下，这不是一个可接受的解决方案。

不像大多数标准的压缩算法，如JPEG[32]和MPEG[10]被设计成可以很容易地分解成更小的块以供潜在的用例使用，包括流媒体服务或在网络连接不佳情况中的部分重构，一个神经场不能解耦成有意义的块。所有的权值参数都是高度交织在一起的，如果缺失了其中的一小部分，就会导致信号重构的灾难性失败。

我们提出可流化的神经场来克服上述问题。我们建议训练技术和架构设计，使单个训练过的网络能够被分离成不同宽度的可执行子网络。通过单一的训练过程，本文提出的算法可以生成单个网络的参数，这些参数随着时间的推移是可流化的，并且能够重构不同质量的信号(图1)。每个子网络负责表示部分信号。例如，一个小的子网络只能产生特定质量或特定时间(或空间)范围内的信号。包含较窄子网络的较宽网络可以表示较窄子网络中没有编码的额外信号。通过流化网络参数(从较窄的子网络到较宽的子网络)，信号将在视觉质量和时间(或空间)顺序上逐步重建，这在许多有用的场景中是可取的。

在这里插入图片描述
(频谱扩展：更大的网络重建更多的高频细节。空域扩展：更大的网络重建更多像素区域。时域扩展：更大的网络重建更多的视频帧。)

总之，我们提出了一个单一的神经网络，可以表示多种视觉质量和空间(或时间)范围，并在流线解码信号。提出的网络结构和训练策略最大限度地利用在小子网中保存的学习到的部分信号。更大的网络明确地利用了它们，使得训练过程更稳定，重构性能提高，参数效率提高。我们展示了所提出的方法的有效性，在各种信号，包括图像，视频和三维形状。

2. Related work

Neural fields and spectral bias: 神经场也被称为基于坐标的神经表征或隐式神经表征，在表征自然信号方面表现出了巨大的成功，如图像[4,22,29]，视频[19,39]，音频[39]，
三维形状[2,5,7,11,15,27,31,38]和视图合成[3,20,23,28,30,36,53]。由于训练过程中的低维输入和光谱偏差，他们很难表示高频细节[33,44]。傅里叶特征编码[28,44]和周期性非线性激活函数[39]使网络能够表示精细的细节，并已取得成功。尽管在许多实际任务中，谱偏差是一种令人不快的训练行为，但我们的工作利用这一现象实现了一个可以用单个神经网络解码各种质量信号的神经场。

Learning decomposed signals: 一些关于神经场的研究使用体素网格[9,40,50]、潜在代码[4,25]和一组神经网络[34]来表示空间分割的信号。基于体素的方法[9,40,50]直接将辐亮度场烘烤到特征网格中。特征网格可以以流线形式传输，但其尺寸较大，不利于流化和压缩。另一行作品[4,25]将图像切片，并将它们编码为潜在向量。而潜向量比特征网格小得多，客户端需要一个解码器。我们的方法允许网络参数流化，而不是潜在向量，并且不需要额外的解码器来重建信号。 KiloNeRF[34]将一个网络细分为许多小的网络。与我们的方法类似，参数是可流化的。然而，该方法中成千上万的网络应该被独立训练。此外，我们还发现，在独立模型学习空间分割场景会产生线条工件(图10)，而我们的方法无缝地重建了场景。

在另一种方法中，信号在频域内进行划分，并进行层次学习。Takikawa等提出学习类似于[42]的多分辨率码本，允许可变比特率流。与我们的想法类似，最近的工作[17,21,37]建议用一个单独的网络来表示具有不同带宽的信号。输入层横向连接到每个中间层，中间(或额外的输出[21,37])层重构限带信号。为了约束带宽，[21,37]对每个输入层的参数进行初始化和固定，使其均匀分布在一定的频率范围内。渐进隐式网络(Progressive implicit networks, PINs)[17]对采样频率进行升序排序，将其划分为子集，每个子集作为傅里叶编码[28,44]的频率。虽然这些工作[17,21,37]与我们的方法有一些相似之处，但也存在显著的差异。首先，我们利用频谱偏差来学习在网络容量有限的情况下的最佳频率带宽，而[21,37]则手动限制带宽，这可能会导致网络容量的低效利用。其次，我们的方法与输入编码方法无关，而[17]为特定的输入编码方法设计了定制的算法。最后，我们还建议增加网络的宽度而不是深度[17,21,37]。

Dynamic neural networks: 与传统的静态结构和大小的神经网络不同，动态神经网络可以在训练和推理过程中动态地扩大或缩小大小。它们可以适应各种计算环境，并在效率和精度之间实现平衡。与我们的工作相关的动态神经网络的一个分支是slimmable神经网络(SNN)[51,52]，该算法在训练时动态扩展卷积滤波器的通道宽度。在SNN中，无需重新训练每个不同的网络结构，该模型可用于多个预定义的宽度。通过知识蒸馏[14]和参数共享，每个训练后的子网络的性能都与单个训练后的模型相似或更好。

在终身学习(或增量学习)[45]领域，神经网络从一系列多任务中学习。渐进式神经网络[35]在将知识从之前的任务转移到新的任务时动态扩展，以处理更多的任务并克服灾难性遗忘行为[12,24]。在这项工作中，我们专注于表示信号，并提出了一种神经场，可以动态地增加网络大小，以表示更高质量或更广范围的信号，同时保留来自小子网的表示。

3. Streamable Neural Fields

本节解释了由不同宽度的可执行子网络组成的可流神经场的训练技术和架构设计。一旦训练完成，一个单一的网络可以呈现不同质量的信号，而无需再训练(光谱增长)。较窄的子网络保存低频信号，较宽的子网络包含高频细节。这个功能可以支持许多实际应用，通过选择宽度来按需提供所要求的质量信号。通常，由于网络参数是高度纠缠的，所以没有直接的解决方案来手动划分权重来实现这一目标。

此外，可流化神经场还支持空间和时间增长。每个可运行的子网络只能代表整个信号的特定部分。如图1所示，人们希望在一段时间内连续发送或接收视频，而且人们更喜欢接收大图像的一小部分。它将有利于传输大尺寸信号，如高分辨率图像或视频。

3.1 Network architecture and progressive training

我们的网络架构和训练过程如图2 (a)所示。模型从一个小而窄的MLP开始训练，以预测目标信号。一旦收敛，它会以任意大小增长宽度。类似于渐进式神经网络架构[35]，我们去掉了连接新添加的隐藏单元和前一个单元的权值，从而防止添加的单元影响小网络的输出。我们还冻结了小网络中的权重，只更新新添加的网络参数。这种渐进式训练策略鼓励大网络使用前一个小网络学习到的知识，只学习小网络无法捕捉到的残余信号。我们不断迭代这个过程，直到满足所需的信号质量或空间/时间大小。
在这里插入图片描述
（当对每个子网络进行训练时，它可以将宽度增加到任意大小。为了保持每个训练过的子网络的输出，之前的权值保持冻结。右侧图像中，将横向连接(红色)保留为默认初始化，其余权重(绿色)初始化为零，以便快速收敛。左侧是为了添加的网络部分不影响已经训练完成的网络部分，右侧是为了添加的网络部分强制学习残差部分，横向连接默认初始化，而前向连接初始化为0。）

Progressive training vs slimmable training. 我们的一般目的是创建一个可在不同宽度上执行的单一网络。我们发现在slimmable网络[52]中的训练技术也可以达到图像和视频拟合任务的目标。与提出的渐进式训练不同，它在预定义的宽度上迭代，取相应宽度的子网络，并使用目标信号预测计算损失。这些子网络的梯度不断累积，直到它访问每一个宽度，权重同时更新。实验结果表明，渐进训练在重构质量和收敛速度方面优于slimmable训练。一种可能的解释是，更宽网络的目标残留信号在训练过程中发生变化，导致收敛速度变慢。渐进训练算法和精简训练算法的细节分别在算法1和算法2中描述。（别问为啥用slimmable，因为我不晓得咋翻译这个词，可瘦身？薄片？精简？）
在这里插入图片描述
Training loss. 在每一个任务中，训练目标都是最小化预测与地面真实目标值之间的均方误差( MSE):

其中 $\{(x_i,y_i)\}^N_{i=1}$ 是坐标和相应信号值对，对于图像信号 $x_i \in \R^2,y_i \in \R^3$ 。 $f_{\theta}$ 是一个以 $θ$ 为参数的神经网络。对于频谱拓展(原文用的spectral growing翻译为光谱增长也可)，目标信号固定在 $y_i$ 上。另一方面，对于空域和时域拓展，我们将输入坐标和地面真实信号划分为每个网络所需的大小来表示。例如，要只表示某个子网络的特定部分，我们的目标变为:
在这里插入图片描述
其中S是属于该部分的指标集合。我们训练网络对不属于感兴趣部分的坐标位置预测零。我们根据经验发现，Eq. 2中的第一项对于无缝重建整个信号是至关重要的。该网络通常预测不属于训练坐标的位置的垃圾输出。当我们缝合信号的不同部分时，它会在边界区域造成严重的伪影。（这一点在各类分块回归中都可以采用）

Initialization. 在使用周期性激活时，需要仔细的初始化，以实现高性能和收敛速度。图2 (b)为建议的初始化方案。我们在SIREN[39]中使用了侧向连接的初始化方法: $U(−\sqrt{6/n}, \sqrt{6/n})$ ，其中n为某一层的输入神经元数量。它帮助网络保持整个层的激活分布。新添加的神经元之间连接的其余权重被设为零。因此，在训练过程的开始，只有来自小子网络的信息流动。它将鼓励大型网络首先利用小型网络的知识，并防止新添加的参数学习小型网络已经学习的冗余信号。实验结果表明，该方法提高了网络参数效率，提高了收敛速度。

3.2 Spectral decomposition of streamable neural fields

在本节中，我们通过光谱偏差的透镜分析一个训练好的可流神经场[33,44]。在使用简单MLP的神经场中，最终输出是前一层输出的加权和(假设输出层没有激活函数)。任何信号都可以表示为不同频率分量的和，理论上可以给最后一层的权重矩阵赋值，这样随着宽度的增加，最终输出可以逐步表示更高的频率分量。
在这里插入图片描述
(对最终隐层的部分权值进行修剪，输出残差信号，并对其进行线性组合(红框)给出完整的重建。这里应该是对权值进行一个缩放，类似于之前MINER的复现版本中，对残差进行缩放可以得到更好的结果)

本文提出的渐进式训练方案没有修改之前学习的子网络输出，这意味着新添加的隐藏单元只表示剩余信号(图3)，光谱偏差[33,44]表明网络优先学习信号的低频部分。因此，递进训练后的窄子网代表低频信号，宽网络保留高频细节。全连接神经网络的输出值是最终隐藏激活的线性组合。我们的模型逐步积累每个子网络学习到的最终隐藏激活。更正式地，我们可以将MLP的输出层表示为:
在这里插入图片描述
其中 $\in \R^n$ 表示n维坐标， $\in \R$ 表示单通道信号值， $\in \R^d$ 表示最后一层神经网络的权重向量， $\phi_j (x)$ 表示在最终层中的第j个隐藏单元。方程3的右边是一个分解为两个部分和的过程，通过指标s(子网络的宽度)将总和分割。我们假设在最后一层中没有偏差项。

我们可以将 $\phi_j$ 解释为基函数，而将 $\omega_j$ 解释为系数。不同于众所周知的基函数，如傅里叶基或切比雪夫多项式，我们通过渐进训练来学习基函数，不受任何约束，如傅里叶基的正交性和周期性。我们仅仅依靠MLP结构的诱导偏差和训练神经网络的谱偏差来获得谱增长神经场。（这里没有搞懂，激活函数采用的sin，为什么可以说不受任何约束，并且我也没有明白这哪里受益于MLP的诱导偏差和光谱偏差了）

Quality control. 现代图像压缩算法的核心前提是人眼无法检测到高频分量。JPEG[32]使用离散余弦变换(DCT)和量化矩阵去除图像中人眼无法识别的高频部分。它使用一个质量因子，根据用户的需求来决定压缩率和重构质量。随着宽度的减小，我们的可流神经场逐渐消除高频分量。因此，选择网络的宽度来重构期望质量的信号类似于在图像压缩算法中选择质量因子。（QP吧）

4. Experiments

我们在各种信号重构任务上测试了我们的模型:一维正弦函数、2D图像、视频和3D符号距离函数(SDF)。我们的实验设置如图4所示。对于频谱延展，由于不存在地面真值残差信号，每个单独训练的模型都被训练来重建原始目标。（这句话虽然我懂什么意思，但我觉得他表达的很有问题，不就是一直对着GT最小化MSE么）另一方面，对于空间/时间增长，我们将地面真实信号分成多个图像块或视频帧，并使每个模型具有相同的网络大小。（对于空域/时域延展把信号和模型均分一下）然后训练每个模型来表示特定的图像补丁或视频帧。请注意，流式空间/时间增长的个体模型也可以实现序列信号传输，而光谱增长的个体模型则不能。（这里指的意思是不能对信号进行分割实现流传输，还是对传完第一个model实现整个图像的重构）
在这里插入图片描述

4.1 1D sinusoidal function reconstruction

在本节中，我们通过简单的1D标量函数拟合和[33]来展示信号的谱增长。这个实验直观地展示了我们模型的残差表示。目标函数是一个映射 $f : [0, 1] \to R$ ，由不同频率和相位角的正弦信号叠加而成。从宽度10(隐藏层的通道大小)开始，我们逐渐增加到40。每个子网络训练了150个epoch。图5给出了各子网络学习到的输出信号和残差。正如预期的那样，小的子网络和剩余输出的低频信号相加，得到的是大的子网络学习到的相同的信号。
在这里插入图片描述

4.2 Spectral growing in images and 3D shapes

Image. 我们在柯达数据集中的24幅图像上训练光谱增长。网络大小增长三倍，对四个不同的可执行子网使用相同的地面真实图像。我们比较了基线方法，表示为 $in d i v i d u a l$ ，它训练不同大小的MLP。通过调整 $in d i v i d u a l$ 模型中隐藏单元的数量，使其与 $St re amb l e$ 网络的子网络中的参数总数相匹配。 $St re amab l e (p ro g ress i v e)$ 表示用提出的递进训练训练的可流模型，并且 $St re amab l e (s l immab l e)$ 为Slimmable训练。（方便的话咱们就叫可瘦身训练，反正是动态的）

图6 (a)显示了平均的PSNR, SSIM[46]和LPIPS[54]。正如预期的那样，扩大网络容量可以得到更高质量的图像。发现 $p ro g ress i v e$ 训练策略优于 $s l immab l e$ 训练。我们认为在 $s l immab l e$ 训练过程中，大的子网络会影响小的子网络的输出，反之则会影响最终的重构性能和收敛速度。在给定相同数量的参数的情况下，所提出方法的最终重建质量与 $in d i v i d u a l$ 相比具有竞争力。特别地，LPIPS给予了 $St re amab l e (p ro g ress i v e)$ 一个很好的分数，即使PSNR和SSIM没有。 Since raw Kodak images contain undetectable high frequency components, our model gets rid of these due to spectral bias [33].（这句话想说的应该是Kodak数据中有难以检测的高频分量，由于光谱偏差我们的模型也难以拟合吧？？我咋有点看不懂呢）。虽然我们的模型在PSNR方面不能准确地重构目标信号，但低LPIPS意味着它充分地代表了人类视觉感知方面的重要特征。
在这里插入图片描述

此外，光谱增长中的 $in d i v i d u a l$ 模型不具有流化功能，这意味着 $in d i v i d u a l$ 需要更多的参数来表示不同的质量，例如4个个体模型对应4种不同的质量。表1显示 $St re amab l e (p ro g ress i v e)$ 模型和 $in d i v i d u a l$ 模型之间的内存比较。我们训练柯达图像23，并将其划分为15个子网络，重建15幅光谱增长图像。与 $in d i v i d u a l$ 相比，我们的 $St re amab l e (p ro g ress i v e)$ 模型的内存需求增加得慢得多。随着创建更多的子网络，这两种模型之间的差异变得更大。（这个原因就不用过多解释了吧， $in d i v i d u a l$ 模型有两个隐藏层中所有的FC连接， $St re amab l e (p ro g ress i v e)$ 只有每个子网内部的隐藏层连接）
在这里插入图片描述
在图7中，我们展示了一个大尺寸图像上的定性结果。原始图像显示了许多大小和亮度各不相同的恒星。将每个子网络训练到同一个目标后，我们用图3所示的方法得到残差信号。从图中可以看出，剩余的输出图像中只包含了没有被更小的子网络捕捉到的小星星。
在这里插入图片描述
3D shapes. 这部分我就不看了有空的哥们自己看吧。

4.3 Spatial and temporal growing

我们对柯达数据集中的8张图像进行了空间增长训练。网络大小增长三倍，共有四个子网络代表空间增长(水平方向)图像。图4(b)中展示了我们与基线的比较。为了公平的比较，在评估阶段将模型预测与包含期望信号的信号域进行比较。图9 (a)中的定量结果显示，与 $in d i v i d u a l$ 模型相比，可 $St re amab l e (p ro g ress i v e)$ 模型具有更高的表示能力。随着宽度的增加，图像的性能下降意味着高频细节集中在图像的中心。虽然 $St re amab l e (s l immab l e)$ 模型落后，但由于三明治规则(更宽的网络的性能不应该比其细小的网络更差)，表示能力会随着宽度的增加而不断增加。
在这里插入图片描述
我们还发现，由于每个网络在训练时没有考虑到整个场景，因此训练 $in d i v i d u a l$ 模型到空间上分离场景会在每个patch之间产生直线伪影(图10 (a))。由于这些线伪像很容易识别，我们认为在学习空间分解信号时，我们的方法比使用单个模型更有优势(图10 (b))。无缝组合单独训练的场景是一个活跃的研究领域，最近的BlockNeRF[43]必须使用额外的对齐技术，例如，反距离加权插值。
在这里插入图片描述
Video. 我们训练7个视频在UVG[26]数据集，调整为480×270大小，用于实验时域拓展。网络规模增长了两倍，总共有三个子网代表了时间增长的视频。每个子网络重构8帧，使最大的网络共重构24帧。我们比较了图4 (b)中描述的基线。如图9所示，对于相同的网络容量（相同的参数）， $St re amab l e (p ro g ress i v e)$ 优于 $in d i v i d u a l$ 模型。

4.4 Our Model Stabilizes the Training

如图11所示，个体模型的PSNR曲线在训练过程中明显下降然后反弹，而 $s t re amab l e (p ro g ress i v e)$ 模型的PSNR曲线没有出现突变。我们在落点重建了最大个体模型的预测RGB值，并在图像上发现了严重的伪影(图11右侧)。这种现象并不局限于所提供的例子。当我们用24张柯达图像训练每个模型时，我们发现了19个类似的案例。这表明可流化(渐进)模型可以保持训练过程的稳定。

由于高频分量对网络参数[33]的扰动很敏感，因此需要微调神经网络的权值来表示高频分量。更新整个参数将显著改变输出信号和损失值。这可能是单个模型的PSNR曲线波动较大的原因之一。另一方面，我们的渐进训练方法冻结了预先训练的子网络参数，只更新新加入的权值。更新部分权重会导致网络输出的微小变化，从而促进稳定的微调。
在这里插入图片描述

5. Limitation and Discussion

如果一个神经网络要在不同的结构上运行，那么在训练阶段访问每个宽度是不可避免的，这需要很长的训练时间。对于动态增长网络的快速收敛，有几种建议的参数初始化方法[8,47,48]。进一步研究优化和初始化技术以改善训练动态变化，可以使我们的模型更适用于现实任务。

传统的神经领域的MLPs是黑箱模型，因此我们无法分析模型如何准确地重建所需的信号。我们模型的预测信号可以解耦为部分重构，预测输出的附加意义可以使一般机器学习和深度学习模型具有可解释性[1,13]。我们相信，我们的工作也可以深入了解神经场的可解释性，并鼓励在社区中进一步研究神经场架构。

6. Conclusion

我们展示了在流线解码神经信号表示的可能性。我们的模型适用于各种信号，如图像、视频和3D形状，这些信号可以在质量上变化或在空间/时间上拓展。与单独训练的模型相比，可流化神经场具有相似或更高的表示能力，并通过参数共享实现了有效的内存消耗。在不需要对多个个体模型进行再训练的情况下，我们的模型可以在训练过程中动态增长以寻找最优的网络容量。我们还表明，这种部分训练模型权重的方式能够稳定训练过程。

One Piece of My Mind

其实在后续实验部分有两个没有提到的点，Table1 提到的PSNR一个范围而没有给到一个确定的值，后续Fig6和Fig9显示的都是相同参数量下的指标，那么在这里进行对比的 $St re amab l e (p ro g ress i v e)$ 模型应该是要比 $in d i v i d u a l$ 模型要宽上两到三倍的，但是由于很多层间的连接都没有所以模型参数量是相同。
这种训练方式应该会非常的缓慢，虽然作者提出训练策略可以提高稳定性，但是没有给出对训练时长的定量比较。并且也缺少对COIN，COIN++等INR图像压缩方法的比较
这篇文章太长了，估计阅读量又会比较辣鸡。给有缘能看到这里的小伙伴推荐两个临时想的点子：1. 将本文与CVPR 2022超分LTE结合，前面加上一个门控网络，实现动态的任意尺度超分；2. 同理，LTE的作者在ECCV2022 还有一篇LTEW，是一个Image Warping的工作，其实稍微转换一下可以用到其他任务上。
附录有缘再写吧