论文研读系列——“Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains”

Water8L

已于 2024-05-19 23:38:14 修改

阅读量1k

点赞数 13

分类专栏：论文研读系列文章标签：机器学习人工智能

于 2024-05-19 23:37:50 首次发布

本文链接：https://blog.csdn.net/Water8L/article/details/139050902

版权

Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains

arxiv [Submitted on 18 Jun 2020]

链接：arXiv:2006.10739

代码：https://github.com/tancik/fourier-feature-networks

摘要

这项研究表明，一种称为傅里叶特征映射的基本技术可以帮助名为多层感知器（MLP）的计算机模型更有效地学习图像和三维场景等区域中的复杂模式。通常，MLP 很难掌握高频函数，这些细节变化非常快，这使得这些模型很难理解和重现图像或形状的复杂部分。通过应用傅立叶特征映射，作者得以改变模型看待输入数据的方式，使其能够更好地识别这些快速变化和细节。这种改进对于计算机视觉和图形任务意义重大，在这些任务中，捕捉高水平的细节对于创建逼真的图像、物体和场景至关重要。本文使用神经切线核（NTK）文献中的数学工具来解释为什么MLP存在这个问题，以及傅里叶特征映射如何帮助克服这个问题，从而提高模型从图像等低维数据中学习的效率。

1 Introduction（引言）

最近在计算机视觉和图形学领域的研究趋势是用深度全连接网络（也称为多层感知器或MLP）参数化的连续函数来替代物体、场景几何和外观的传统离散表示（例如网格和体素网格）。这些MLP，我们将称之为“基于坐标”的MLP，它们接受低维坐标作为输入（通常是R3中的点），并被训练用于在每个输入位置输出形状、密度和/或颜色的表示（见图1）。这一策略很有吸引力，因为基于坐标的MLP适合于基于梯度的优化和机器学习，并且比网格采样表示要紧凑得多。基于坐标的MLP已被用于表示图像，并在各种任务中取得了最先进的结果，例如形状表示、纹理合成、从图像推断形状以及新视图合成。

作者利用了最近使用核回归对深度网络行为进行建模的进展，结合神经切线核（NTK）理论，从理论上和实验上表明标准MLP并不适合这些基于低维坐标的视觉和图形任务。特别是，MLP难以学习高频函数，这在文献中被称为“频谱偏差”。NTK理论表明，这是因为标准基于坐标的MLP对应于具有快速频率衰减的核，这实际上阻止了它们能够表示自然图像和场景中存在的高频内容。

在这里插入图片描述

一些近期的实验研究发现，一种启发式的正弦波映射输入坐标（称为“位置编码”）允许MLP表示更高频率的内容。我们观察到这是傅里叶特征的一个特例：在将输入坐标v映射到 $γ(v) = [a_1 cos(2πb_1^T v), a_1 sin(2πb_1^T v), ..., a_m cos(2πb_m^T v), a_m sin(2πb_m^T v)]^T$ 之前，将其传递到MLP中。作者展示了这种映射如何将NTK转换为一个平稳（移位不变）核，并通过修改频率向量bj来调整NTK的频谱，从而控制相应MLP可以学习的频率范围。还展示了一个简单策略，即设置 $a_j=1$ 并从各向同性分布中随机采样 $b_j$ ，可以实现良好的性能，并且该分布的尺度（标准差）远比其具体形状更为重要。作者在与计算机视觉和图形学社区相关的一系列任务中训练了具有这种傅里叶特征输入映射的MLP。正如图1所强调的，作者提出的映射显著提高了基于坐标的MLP的性能。总结来说，作者做出了以下贡献：

作者利用NTK理论和简单的实验表明，傅里叶特征映射可以被用来克服基于坐标的MLP对低频的频谱偏差，允许它们学习更高的频率（第4节）。
作者展示了具有适当选择尺度的随机傅里叶特征映射可以显著提高基于坐标的MLP在计算机视觉和图形学的许多低维任务中的性能（第5节）。

2 Related Work（相关工作）

作者的工作是受到基于坐标的MLP广泛用于表示各种视觉信号的启发，包括图像和3D场景。特别是，他们的分析旨在阐明实验结果，这些结果表明使用具有对数间隔的轴向对齐频率的正弦波对坐标进行输入映射（他们称之为“位置编码”）可以提高基于坐标的MLP在从2D图像进行新视图合成和从冷冻电镜建模蛋白质结构等任务上的性能。作者分析这项技术，表明它对应于MLP的NTK的修改，并且作者展示了其他非轴向对齐的频率分布可以优于这种位置编码。

在自然语言处理和时间序列分析中的先前工作已经使用了类似的位置编码来表示时间或1D位置。特别是，Xu等人使用随机傅里叶特征来近似具有正弦输入映射的平稳核，并提出了调整映射参数的技术。作者的工作通过直接解释这些映射作为结果网络的NTK的修改进行了扩展。此外，作者解决了多维坐标的嵌入问题，这对于视觉和图形任务是必要的。

为了分析在将傅里叶特征映射应用于输入坐标之前通过MLP的效果，作者依赖于最近的理论研究，这些研究将神经网络在无限宽度和无限小学习率的极限下建模为使用NTK的核回归。特别是，作者使用了Lee等人和Arora等人的分析，这些分析表明，网络在整个梯度下降过程中的输出保持接近其NTK矩阵的特征值控制的线性动态系统。对NTK的特征分解分析表明，其特征值谱随着频率的增加而迅速衰减，这解释了深度网络学习低频函数的广泛观察到的“频谱偏差”。

作者利用这种分析来考虑在网络之前添加傅里叶特征映射的影响，作者展示了这种映射对NTK的特征值谱和相应网络在实践中的收敛性质有显著影响。

3 背景和符号

为了为理论分析奠定基础，作者首先回顾经典的核回归及其与分析深度全连接网络的训练动态和泛化行为的最新结果的联系。在后续部分中，作者使用这些工具来分析使用傅里叶特征映射训练基于坐标的MLP的效果。

核回归
核回归是一种经典的非线性回归算法。给定一个训练数据集 $\{(xi, yi)\}^n_{i=1}$ ，其中 $x_i$ 是输入点， $y_i = f(x_i)$ 是相应的标量输出标签，核回归构建了一个估计值 $\hat{f}$ 来表示任何点x处的底层函数：