【剑桥大学博士论文】卷积条件神经过程

数据派THU

于 2024-08-27 17:04:06 发布

阅读量49

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247643863&idx=3&sn=83e74ca1d98b176b9ab683b80e09f2d8&chksm=e8ed10dbd0a1a74a75040b3007c17d263834a28dd2257dde4f9f8a3ecf86bddf4db357122cac&scene=126&sessionid=0

版权

来源：专知
本文为论文介绍，建议阅读5分钟本论文在神经过程方面进行了三项进展。

神经过程是一类使用神经网络直接参数化从数据集到预测的映射的模型家族。直接参数化这个映射使得神经网络能够在小数据问题中表现出色，而传统上神经网络在这种情况下容易过拟合。神经过程能够产生良好校准的不确定性，有效处理缺失数据，并且易于训练。这些特性使得该模型家族在医疗保健或环境科学等多个应用领域具有吸引力。

本论文在神经过程方面进行了三项进展：

首先，我们提出了卷积神经过程（ConvNPs）。ConvNPs通过引入一种称为平移等变性的对称性来提高神经过程的数据效率。ConvNPs依赖于卷积神经网络，而不是多层感知器。

其次，我们提出了高斯神经过程（GNPs）。GNPs直接参数化神经过程预测中的依赖关系。当前用于建模预测依赖性的方式依赖于潜在变量，这需要近似推断，从而削弱了方法的简洁性。

第三，我们提出了自回归条件神经过程（AR CNPs）。AR CNPs无需对模型或训练过程进行任何修改即可训练神经过程，并且在测试时以自回归方式展开模型。AR CNPs为神经过程框架提供了一个新的调节手段，使得在训练时的建模复杂性和计算成本可以与测试时的计算成本进行权衡。

除了方法学上的进展，本论文还提出了一种软件抽象，允许以组合的方式实现神经过程。这种方法允许用户通过以不同方式组合基本构建模块来快速探索神经过程模型的空间。

在第1.1节和第1.2节中，我们首先轻松地介绍了元学习。随后，在第1.3节中，我们介绍了神经过程，并解释了本论文的主要贡献。第1.4节将本论文置于历史背景中，而第1.5节则概述了接下来的章节。最后，第1.6节列出了作者在博士期间发表的出版物和软件。

1.1 从监督学习到元学习

这是什么动物的种类？这张MRI扫描显示了什么令人担忧的内容吗？明天每日新增的新冠病毒病例数是多少？如果没有看到大量不同种类动物的例子；如果没有分析过许多MRI扫描；如果没有看到大量的每日新冠病例的历史数据，那么准确且自信地回答这些问题几乎是不可能的。

这些问题都是监督学习问题的例子，它们遵循相同的抽象结构。给定观察到的数据，未观察到的新输入的输出是什么？例如，给定许多不同种类动物的照片，如何确定新照片中动物的种类？为了解决监督学习问题，已经开发了许多统计估计技术。这些技术通过算法处理观察到的数据，以对新输入进行预测。然而，对于复杂的问题，例如预测动物的种类，这些算法可能需要大量数据。

然而，在实际中，数据可能非常稀缺。假设我们偶然发现了一种新的美丽的情侣鹦鹉（俗称为爱情鸟）。以前从未有人见过这种物种，但我们设法拍摄了五张照片。为了将我们的发现分享给世界，我们希望分发一个算法，该算法可以处理一张照片并说“是的，这是新物种！”或者“不是，这不是它。”识别鸟类的种类并非易事，因此我们需要一个复杂的算法，例如神经网络（McCulloch等人，1943；Rosenblatt，1958；Ivakhnenko等人，1965；Fukushima等人，1982；Werbos，1982；LeCun等人，1989）。如果你以前从未接触过神经网络，可以将其视为一种极其灵活且多功能的分类算法。正如你可能已经猜到的，五张照片远远不够训练一个神经网络分类器。也许一百张或一千张照片会足够，但五张显然不行。

在某种意义上，神经网络需要大量数据才能准确地确定鸟类的种类是合理的。毕竟，该算法从未见过鸟类，因此它必须首先学习鸟类是什么，然后才能开始学习如何区分不同鸟类的种类，而这确实需要大量的数据。但是这非常浪费，因为这绝对不是我们第一次遇到鸟类！或许，作为一个非常年幼的孩子，只看过几只鸟，我们可能会难以识别新出现的不同寻常的鸟类。然而，随着年龄的增长，我们学习了鸟类的基本解剖结构以及通常区分不同种类的特征。即使从未见过某种鸟类，我们也能够迅速识别出某种鸟类的基本特征。

一个关键特征是，这个学习过程并不仅仅是一次尝试识别一个新物种，而是贯穿一生的多个尝试，识别许多新物种。因此，终生学习过程可以被看作是许多相互关联的小识别问题的流。关键是，尝试解决其中一个问题会提高你解决未来问题的能力。元学习指的是这种情况，在这种情况下，学习发生在两个层次：在每个小问题的层次上，尝试解决该问题（学习）；在这些问题之间，逐步提高解决任何一个问题的能力（学习如何学习）。可以将其视为快速学习和缓慢学习。

这种学习如何学习的理念是机器学习中的元学习范式的核心（Schmidhuber，1987；Thrun等人，1998）。元学习范式试图构建能够改进其学习机制的算法。事实上，有人认为这种能力是构建像人类一样学习的算法所必需的（Lake等人，2015；Lake等人，2017）。这种两层次的学习结构有时可以在现代元学习算法中被明确地识别为内循环和外循环（Andrychowicz等人，2016；Finn等人，2017；Grant等人，2018）。然而，这种结构并不限于两层次（Schmidhuber，1987）。

学习识别新物种是元学习问题的一个自然例子：许多监督学习问题的集合，通常规模较小，具有共享的统计结构。在元学习问题中，解决任何一个小的监督学习问题通常太难了；但通过同时考虑多个问题，算法可以捕捉到共享的统计结构，从而在其中任何一个问题上表现得更好。在这个意义上，元学习与迁移学习密切相关，其思想是通过利用不同但相关的问题来更好地解决一个问题。而迁移学习关注的是从什么学习（相关数据），元学习则额外关注模型如何学习（学习如何学习）。

本论文专注于推进针对空间、时间或时空元学习问题的元学习算法。我们现在给出两个此类问题的代表性例子。第一个例子是，我们考虑一群患者的脑电图（EEG）（Zhang等人，1995）。对于这些EEG中的许多，我们希望估计一个派生信号，如患者的情绪，或者更简单地，未测量电极的信号。我们将开发一种算法，通过学习其他患者的EEG来估计缺失电极的信号。第二个例子是气候科学中的一个问题，称为统计降尺度（Maraun等人，2018）。在气候科学中，大量精力用于构建能够对过去和未来进行预测的模拟器（Dee等人，2011）。然而，这些模拟器的输出有时非常粗糙，例如每100公里预测一个温度。降尺度方法试图通过使用辅助信息（如局部地形特征如海拔）将这些粗粒度的输出细化为更精细的预测。我们将开发一种算法，通过学习过去记录的真实天气，来降尺度未来一天的气候模拟器预测。

我们已经看到了三个元学习问题的例子：学习识别新鸟类物种，学习在EEG（或其他派生信号）中补全缺失电极，以及学习对气候模拟器的输出进行降尺度。这些例子的多样性证明了元学习范式的灵活性。它几乎让人觉得我们可以学会学习任何东西！在下一节中，我们将更详细地探讨算法如何学会学习。