论文阅读 7 | Non-Gaussian Gaussian Processes for Few-Shot Regression

♡来年秋风起♡

已于 2022-12-30 13:39:17 修改

阅读量1k

点赞数

分类专栏：少样本学习文章标签：论文阅读

于 2022-12-24 09:50:31 首次发布

本文链接：https://blog.csdn.net/qq_44924407/article/details/128426095

版权

少样本学习专栏收录该内容

8 篇文章 6 订阅

订阅专栏

本文介绍了非高斯高斯过程（NGGP），这是一种利用连续归一化流来增强高斯过程（GP）灵活性的方法，以适应小样本回归任务中的复杂分布。NGGP通过可逆的基于ODE的映射调节GP的后验预测分布，允许在保持任务结构共享的同时适应局部差异。实验表明，NGGP在多种小样本学习基准上优于现有方法，特别是在捕获多模态分布和异方差数据方面表现出色。

摘要由CSDN通过智能技术生成

摘要

高斯过程 (GP) 已广泛用于机器学习中以对函数分布进行建模，其应用包括多模态回归、时间序列预测和小样本学习。 GP 在最后一个应用中特别有用，因为它们依赖于正态分布并支持后验概率函数的封闭形式计算。不幸的是，由于生成的后验结果不够灵活，无法捕获复杂的分布，因此 GP 假定后续任务之间存在高度相似性——这一要求在现实世界条件下很少得到满足。在这项工作中，我们通过利用归一化流的灵活性来调节 GP 的后验预测分布来解决这个限制。这使得 GP 后验局部非高斯，因此我们将我们的方法命名为非高斯高斯过程 (NGGPs)。我们提出了一种基于 ODE 的可逆映射，它对随机变量向量的每个分量进行操作，并在所有分量之间共享参数。我们凭经验测试了 NGGP 在各种少样本学习回归数据集上的灵活性，表明映射可以结合上下文嵌入信息来为周期函数的不同噪声水平建模。因此，我们的方法在后续任务之间共享问题的结构，但上下文化允许适应差异。 NGGP 在一组多样化的基准和应用程序上优于竞争的最先进的方法。

1 简介

高斯过程 (GP) 是最重要的概率方法之一，它们已被广泛用于对各种应用程序中的函数分布进行建模，例如多模态回归、时间序列预测和元学习。最近的工作建议在小样本学习场景中使用 GP，在该场景中，训练模型来解决只有少数标记样本可用的监督任务。这个特殊的应用程序非常适合 GP，因为它们可以从一小组数据样本中确定封闭形式的后验分布。
在这里插入图片描述
图 1：具有经典 GP（左）和 NGGP（右）的深度内核的结果。一维样本是从带有附加噪声的 $s in (x)$ 和 $- s in (x)$ 函数中随机生成的。与 GP 相比，NGGP 没有高斯先验假设，这允许对多模态分布进行建模。

然而，当建模的分布复杂时，GP的泛化能力是以灵活性降低为代价的，例如，它们具有高偏度或重尾。此外，GP假定后续任务之间具有高相似性。这一条件在现实世界的应用程序中很少得到满足，因为任务会随时间而变化，异方差回归就是如此。GP的这些局限性还扩展到多模式学习，或者更一般地，扩展到多标签回归。

在这项工作中，我们通过使用局部非高斯近似对GP后验预测分布进行建模来解决这些缺点。为此，我们引入了一种新的方法，我们命名为非高斯高斯过程（NGGP）。在NGGP中，我们利用连续归一化流（CNF）[16]的灵活性来建模任意概率分布。特别地，我们提出了一种可逆的基于ODE的映射，它作用于随机变量向量的每个分量。通过这种方式，我们可以计算一组在所有向量上共享的CNF参数，所得到的映射结合了上下文的信息，以对周期函数的不同噪声进行建模。图1显示了NGGP如何能够捕获问题的总体结构，而标准GP则无法捕获。由于基于ODE映射提供的上下文化，NGGP能够重构多模态正弦函数，同时适应局部差异。我们提供的经验证据表明，NGGP优于竞争国家的最先进的方法在一个多样化的一套基准和应用程序在几杆学习的情况;该代码以开放源码许可证2发布。

我们工作的贡献可归纳如下：

我们引入了非高斯高斯过程（NGGP），一种通过局部非高斯后验来建模复杂分布的新概率方法。
我们展示了基于ODE的可逆映射如何与GP相结合，以处理多变量随机变量的边界，从而产生更灵活的模型。
我们在各种小样本学习基准上广泛测试NGGP，在大多数情况下实现最先进的性能。

2 相关工作

相关工作部分分为三个部分。首先，我们提出了一个一般的小样本学习问题。然后，我们将讨论GP，重点放在使用流架构的模型上。最后，在第三段中，我们描述了现有的使用高斯过程的小样本学习方法。
Few-Shot Learning 小样本学习旨在解决观察次数有限的问题。该领域的一些早期方法采用了两阶段方法，即对训练任务的基本集进行预训练，然后对测试任务的参数进行微调。另一种方法是非参数度量学习算法，其目的是优化度量，然后用于计算目标观测值与支持集项目之间的距离。另一种流行的方法是模型不可知元学习（MAML）及其变体。MAML旨在找到一组连接的任务参数，这些参数可以通过很少的梯度下降更新轻松地微调到新的测试任务。MAML也可被视为贝叶斯分层模型。Bayesian MAML 将基于梯度的高效元学习与非参数变分推理结合在一个原则性概率框架中。少数算法专门关注回归任务。ALPaCA 给出了一个例子，它使用样本函数的数据集来学习域特定编码和先验权重。
Gaussian Processes GP已经应用于许多机器学习问题，例如时空密度估计、机器人控制或人类细胞中转录过程的动力学建模。GP的缺点在于训练步骤的计算成本，即 $O(n^3)$ （其中n表示训练样本中的观察数）。

在[41]中，作者通过使用可学习单调映射（扭曲函数）处理目标，扩展了GP的灵活性。这一想法在[22]中得到了进一步扩展，这表明可以将另一个GP的先验放在翘曲函数本身上。我们的方法与这些方法不同，因为似然变换是通过使用可学习的CNF映射获得的。

在[26]中，作者提出了转换高斯过程（TGP），这是一个使用GP和流模型的新的灵活的函数先验族。TGP利用贝叶斯神经网络（BNN）作为输入相关的参数转换。该方法可以以一小部分的计算成本来匹配Deep GP的性能。

上面讨论的方法是在保持不变的单个数据集上训练的。因此，将这些方法应用于小样本设置并非易事。

Few-Shot Learning with Gaussian Processes 当观测数量相对较少时，GP代表了其他回归方法的一个有趣的替代方案。这使得 GP 成为元学习和少镜头学习的一个很好的候选者，正如最近探索这一研究方向的出版物所示。例如,学习适应性的深层内核(ADKL)[45]提出了一种变体的内核学习GPs,它旨在为每个任务在推理找到适当的内核利用元学习方法。可以使用类似的方法来学习均值函数[11]。在[37]中，作者提出了元学习的理论原则PAC-Bayesian框架。它可以用于不同的基础学习者（例如，GP或BNN）。与内核技巧和元学习相关的主题已经在[47]中进行了探讨。作者建议使用非参数核回归进行内循环更新。在[43]中，作者通过对信息瓶颈的变分近似引入了元学习的信息理论框架。在他们基于GP的方法中，为了考虑除高斯分布之外的似然性，他们建议用高斯分布（通过使用摊销函数）近似后验中的非高斯项，而我们使用CNF来增加GP的灵活性。

在[29]中，作者提出了深度内核传输（DKT）：通过使用深度核函数对元学习内环进行贝叶斯处理，取得了最新成果。在DKT中，GP的深度核和参数在所有任务之间共享，并且被调整以最大化边际对数似然，这等价于最大似然类型II（ML-II）学习。DKT在回归情况下特别有效，因为它能够通过GP内核捕获关于数据的先验知识。然而，在许多情况下，如果在评估阶段不满足事先假设，则可能会产生不利影响。这是小样本回归的情况，其中在训练时看到的任务和在评估时看到的任务之间可能存在显著差异。例如，如果我们被给予由来自周期函数的样本组成的小样本任务，但是周期性在评估时被破坏，则像DKT这样的方法在这种域移动下可能在预测准确性方面受到损害。在本文中，我们利用CNFs的灵活性来解决这个问题。

3 背景

主要介绍Gaussian Processes和Continuous Normalizing Flows的理论知识。

4 Non-Gaussian Gaussian Processes

在这项工作中，我们引入了非高斯高斯过程（NGGP），以应对小样本回归任务中高斯过程的显著瓶颈：灵活性降低以及后续任务结构之间高度相似的假设。我们建议模型的后验预测分布作为非高斯的每个数据点。我们通过结合CNF的灵活性来做到这一点。然而，我们没有在GP上堆叠CNF来建模y上的多维分布。相反，我们使用基于可逆ODE的映射来解决这个问题，该映射可以利用随机变量向量的每个分量，并为每个数据点创建特定的映射（见图2）。
在这里插入图片描述
图2：NGGP的总体思路。复杂的多峰分布可以通过利用连续可逆变换来拟合GP使用的正态分布来建模。图片灵感来自[16]中的图1。

我们方法的总体概述见图3。考虑数据矩阵 $\mathbf X$ ，它存储给定任务的观察 $\mathbf x_i$ 。每个元素都由特征提取器 $h (\cdot)$ 处理以创建潜在嵌入。接下来，我们用GP对潜在变量 $\mathbf z$ 的分布进行建模。此外，我们使用可逆映射 $f (\cdot)$ 来建模更复杂的数据分布。注意，变换还取决于特征提取器 $h (\cdot)$ 的输出，以包括关于输入的附加信息。
在这里插入图片描述
图3：我们方法的总体架构。输入数据由特征提取器 $h (\cdot)$ 嵌入，然后用于为GP创建内核。接下来，使用可逆映射 $f (\cdot)$ 调整GP的输出 $z$ ，该映射以特征提取器的输出为条件。这允许我们对目标值 $y$ 的复杂分布进行建模。

本节的其余部分按如下方式组织。在4.1节中，我们将演示如何在训练过程中计算边际。在第4.2节中，我们将演示如何使用模型执行推断阶段。最后，在第4.3节中，我们将介绍如何将模型应用于小样本设置。

4.1 训练目标

在这里插入图片描述

4.2 模型的推论

4.3 适应小样本回归

我们遵循[29]中介绍的深度核转移（DKT）的范例，并提出以下训练和测试过程（参见算法1）。在训练阶段期间，我们随机地对任务进行采样，计算由等式（13）定义的损失，并且使用基于梯度的优化来更新所有参数。在测试期间，我们简单地识别查询集和支持集，并计算由等式（14）给出的后验。

5 实验

在本节中，我们将针对一组具有挑战性的小样本回归任务，对我们的方法（NGGP）进行广泛评估。我们将结果与该领域使用的其他基线方法进行比较。作为定量指标，我们使用标准均方误差（MSE）和负对数似然（NLL）（如适用）。

Sines dataset 我们首先在 sines 函数上定义的简单回归任务中将NGGP与其他小样本学习算法进行比较。表1给出了实验的结果。我们使用DKT方法作为参考，因为它为小样本 sines 数据集提供了最先进的结果。

表1：in-range 和 out-of-range 设置下 Sines 数据集推理任务的MSE和NLL结果。最低结果以粗体显示（越低越好）。
在这里插入图片描述

DKT和我们的NGGP在与 Spectral Mixture Kernel 配合使用时表现非常好，in-range 数据上实现了相同的性能。然而，我们的方法在 out-of-range 情况下给出了更好的结果，证实了NGGP能够为任务的不可见部分提供更好的预测后验估计。还值得注意的是，在所有设置中，NGGP始终实现最佳NLL结果。这对于in-range 混合噪声 Sines 数据集尤其明显。我们在图4中分析了这一结果，其中NGGP成功地模拟了目标的分布，预测了较集中的点的窄边缘，并对具有较大噪声幅度的点使用了较宽的分布。这与DKT形成对比，DKT无法捕获数据中的不同噪声水平。这些观察结果证实了我们的说法，即NGGP能够在异方差数据的情况下提供良好的估计。

在这里插入图片描述
图4:NGGP（NN线性）和DKT（光谱）最佳性能内核的混合噪声正弦数据集的结果。每个图中的顶部图表示估计的密度（蓝色色调）和预测的曲线（红线），以及真实的测试样本（海军蓝点）。对于三个选定的输入点（用黑色垂直线表示），我们在底部图像（红色）中绘制所获得的边缘密度。此外，对于NGGP方法，我们还绘制了这三个点中每个点的边际先验（绿色）。可以观察到，NGGP在模拟不同噪声水平的边际方面更为成功。

Head-pose trajectory 在这个实验中，我们使用伦敦玛丽皇后大学的多视角人脸数据集。结果见表2。在MSE方面，我们的NGGP方法与其他方法相比具有竞争力，但它实现了显著更好的NLL结果，尤其是在 out-of-range 的设置中。这表明NGGP确实能够通过提供准确捕捉真实基础数据的概率分布来适应训练时看到的任务和评估时看到的工作之间的差异。

表2：伦敦玛丽女王大学in-range 和 out-of-range 设置的定量结果，考虑了NLL和MSE测量。
在这里插入图片描述
Object pose prediction 我们还研究了[54]中介绍的姿态预测数据集中NGGP的行为。该数据集中的每个任务由30幅分辨率为128*128的灰度图像组成，平均分为支持和查询两部分。通过从Pascal 3D [51]数据集中选择一个对象，在100个随机方向上渲染它，并从中抽取30个表示来创建任务。目标是预测相对于固定规范姿势的方向。注意，50个随机选择的对象用于创建元训练数据集，而剩余的15个对象用于创建不同的元测试集。由于元训练中的对象数量很少，模型可以记住每个对象的规范姿态，然后使用它来预测目标值，在推理过程中完全忽略支持点。这将导致元测试任务中不可见对象的性能较差。这种过拟合的特殊情况被称为记忆问题[54]。

我们通过评估DKT和NGGP模型的性能来分析基于GP的模型在这种设置下的性能。我们将它们与[54]中使用的方法进行比较，即MAML [9]、条件神经过程（CNP）[12]及其设计用于解决记忆问题的元正则化版本-MR-MAML和MR-CNP [54]。此外，我们还包括微调（FT）基线和CNP版本以及标准正则化技术，如贝叶斯反推（BbB）[2]和权重衰减[20]。结果见表3。

两种GP相关方法：NGGP和DKT相似或通常优于标准和亚正则化方法，这表明它们不易于记忆，因此受益于更好的推广。NGGP的NLL明显低于DKT，证实NGGP在推断复杂数据分布方面更好。

表3：物体姿态预测任务的定量结果。我们报告了5次试验的平均值和标准差。越低越好。星号（*）表示[54]中报告的值。
在这里插入图片描述
Power Dataset 在这一系列实验中，我们使用Power [1]数据集，并为小样本设置定义实验设置。我们将由1440个值（60分钟24小时）组成的表示每日功耗（sub_metering_3）的每个时间序列视为单个任务。我们使用前50天的任务训练模型，每个任务随机抽样10个点，而验证任务通过从随后的50天中随机选择生成。

定量和定性分析见图5。由于数据的多模态性质，我们仅使用NLL来评估结果，并分析了不同支持样本数量的标准值。NGGP能够更好地适应真实的数据分布，即使在推理过程中支持实例很少。这个实验支持了NGGP非常适合于建模多峰分布和阶跃函数的说法。
在这里插入图片描述
图5：功率数据集实验的结果：（a）考虑到不同数量的支持实例，DKT和NGGP之间的定量比较。(b)从测试数据中随机选择的一天的功耗。考虑10和100个支持点，我们比较了DKT与NGGP（具有RBF核）。NGGP捕获多模态，因此更好地适应数据分布。

NASDAQ and EEG datasets 为了测试我们的方法在真实世界时间序列预测中的性能，我们使用了两个数据集-NASDAQ 100 [30]和EEG [8]。有关本实验数据集和评价方案的详细描述，请参见补充材料A。定量结果见表4。实验表明，NGGP在所有数据集上的性能优于基线DKT方法。当两种方法都使用RBF核时，对于超出范围的NASDAQ 100，这种改进尤其明显。实验结果表明，即使数据不服从高斯分布，NGGP也可以成功地用于真实数据集的建模。

表4：NASDAQ和EEG数据集的定量结果。
在这里插入图片描述

6 结论

在这项工作中，我们引入了NGGP——一种广义概率框架，它解决了高斯过程的主要局限性，即其在复杂分布建模中的刚性。NGGP利用归一化流的灵活性来调节GP的后验预测分布。我们的方法为小样本回归提供了一个鲁棒的解决方案，因为它在连续任务之间找到了一个共享的参数集，同时可以适应不同点和域转移。我们已经对我们的方法进行了广泛的经验验证，证明它可以在各种具有挑战性的数据集上获得最先进的性能。在未来的工作中，我们将集中在需要精确概率分布估计的小样本回归问题的应用上（例如，连续的对象跟踪）和对于后续任务在相似性方面存在潜在的不连续性的设置（例如，持续学习）。

Limitations NGGP的主要限制是学习基于流的模型的成本，当数据来自简单的分布时，这可能比使用标准DKT更昂贵。在这种情况下，DKT等其他方法可能更有效。此外，对于需要大量观测的任务来说，GPS的成本很高，这使得NGGP更适合于小样本的学习，而不是更大的设置。最后，在某些情况下，训练和微调NGGP比DKT更具挑战性，因为参数和超参数的数量总体上更大（例如，流的参数）。

Broader Impact 回归的高斯过程已经对各种实际应用产生了巨大的影响。NGGP使得有可能将先验知识和专门技术应用于甚至更复杂的现实世界系统，提供公平的和具有人性意识的解决方案，即：在神经科学或社会研究中（参见第5节中关于个体功耗、EEG和NASDAQ数据集的实验）。所提出的方法是有效的，并代表了一个伟大的工具，更好地量化不确定性。必须仔细考虑我们方法的可能应用，以尽量减少任何可能的社会影响。例如，如果在涉及大规模监视的应用中出于恶意和不道德的意图部署NGGP，则在对象跟踪中使用NGGP可能是有害的。