14.4-8 随机变分深度核学习

文献来源:A. G. Wilson, Z. Hu, R. R. Salakhutdinov, and E. P. Xing, “Stochastic variational deep kernel learning,” in Advances in Neural InformationProcessing Systems . Red Hook, NY, USA: Curran, 2016, pp. 2586–2594.

摘要

深度核学习将核方法的非参数灵活性与深度学习架构的归纳偏差相结合。本文提出一种新的深度核学习模型和随机变分推理过程,泛化了深度核学习方法,以实现分类、多任务学习、加性协方差结构和随机梯度训练。将加性基核应用于深度神经架构的输出特征子集,并通过高斯过程边缘似然目标联合学习基核和深度网络的参数。在这个框架中,推导出一种有效的随机变分推理形式,利用局部核插值、诱导点和结构利用代数。在几个分类基准上,表现出了比独立深度网络、svm和最先进的可扩展高斯过程更好的性能,包括包含600万训练点的航空延误数据集、CIFAR和ImageNet。

1 Introduction

大型数据集为学习丰富的统计表示提供了巨大的机会,为对建模问题的准确预测和新的科学见解提供了机会。高斯过程在处理大数据问题时很有前途,因为它们可以随着可用数据量的增加,以及自动校准模型的复杂性而增长其信息容量[21,25]。

从高斯过程的角度来看,数据中的所有统计结构都是通过核函数学习的。流行的核函数,如RBF核,可以提供平滑和插值,但不能学习长程外推所需的表示[22,25]。使用平滑核,我们只能使用大型数据集中的信息来学习噪声和长度尺度的超参数,它们只能告诉我们数据中的相关性随着输入空间中的距离变化有多快。如果我们学习一个短长度尺度的超参数,那么根据定义,我们将只使用每个测试点附近的少量训练数据。如果我们学习较长的长度尺度,那么我们可以对数据进行子采样并做出类似的预测。

因此,为了充分利用大型数据集中的信息,我们必须构建具有强大表示能力和有用学习偏差的核,并在不牺牲这种表示能力的情况下扩展这些方法。事实上,许多最近的方法都主张构建表达性核函数[例如,22,9,26,25,17,31],这个方向的新兴研究从深度学习模型[例如,28,5,3]中获得灵感。然而,此类方法的可扩展性、普遍适用性和可解释性仍然是一个挑战。最近,Wilson等人([30])针对单输出回归问题提出了简单且可扩展的深度核,在许多实验中具有良好的性能。但是他们的方法不允许随机训练、多输出、具有许多输出特征的深度架构或分类。它是关于分类问题的,特别是,我们经常有高维输入向量,对这些向量应该如何相互关联的直觉很少,因此大多数想学习一个灵活的非欧氏相似性度量[1]。

本文介绍了推理过程,并提出了一种新的深度核学习模型,使(1)分类和非高斯似然;(2)多任务学习;(3)随机梯度小批量训练;(4)输出特征丰富的深度架构;(5)加性协方差结构;(5)大大增强了可扩展性。

本文建议将与高斯过程(GPs)相对应的加性基核应用于深度神经架构的输出特征子集。然后,对这些高斯过程进行线性混合,在多个输出变量之间诱导相关性。结果是一个深度概率神经网络,其隐藏层由无限基函数的相加集组成,线性混合以产生相关的输出变量。深度架构和基础核的所有参数通过边际似然目标联合学习,已经集成了所有GPs。对于可扩展性和非高斯似然,本文推导出随机变分推理(SVI),利用局部核插值、诱导点和结构利用代数,以及一种混合采样方案,建立在Wilson和Nickisch [27], Wilson等人[29],Titsias [24], Hensman等人[10]和Nickson等人[18]的基础上。由此产生的方法SV-DKL,对于m个诱导点和D个输入维度,其复杂度为O(m1+1/D),而对于有效的随机变分方法,其复杂度为O(m3)。

我们在广泛的分类任务中实现了良好的预测准确性和可扩展性,同时保留了一个简单的、通用的、高度实用的概率非参数表示,代码可在我们在以下网址处获得

https://people.orie.cornell.edu/andrew/code

2 Background

4 利用随机变分推理的结构

6 讨论

本文提出了一种可扩展的高斯过程模型,利用深度学习、随机变分推理、利用代数的结构和加性协方差结构。由此产生的深度核学习方法SV-DKL,允许分类和非高斯似然,多任务学习和小批量训练。SV-DKL在许多重要的基准上比其他可扩展GP模型和独立的深度网络实现了优越的性能。

从阐述中出现了几个基本主题:(1)核方法和深度学习方法是互补的,可以结合每种方法的优势;(2)表达能力强的核函数在大型数据集上特别有价值;(3)通过度量学习的视角来看待神经网络,深度学习方法变得更具可解释性。

深度学习能够通过自动学习结构来获得良好的预测精度,而先验特征工程很难将其转化为模型。未来,我们希望深度核学习方法将特别有助于解释这些学习到的特征,为我们的建模问题带来新的科学见解。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值