深度集成估计:简单且可扩展的不确定性预测

简介

深度神经网络(NNs)是强大的黑匣子预测器,最近在广泛的任务中取得了令人印象深刻的表现。量化神经网络中的预测不确定性是一个具有挑战性且尚未解决的问题。学习权重分布的贝叶斯神经网络是目前估计预测不确定性的最先进方法;然而,这些需要对训练过程进行重大修改,并且与标准(非贝叶斯)神经网络相比,计算成本很高。我们提出了一种替代贝叶斯神经网络的方法,它易于实现,易于并行化,只需要很少的超参数调优,并产生高质量的预测不确定性估计。通过对分类和回归基准的一系列实验,我们证明我们的方法产生了校准良好的不确定性估计,与近似贝叶斯神经网络一样好或更好。为了评估对数据集移位的鲁棒性,我们评估了已知分布和未知分布的测试样例的预测不确定性,并表明我们的方法能够在分布外的样例上表达更高的不确定性。我们通过在ImageNet上评估预测不确定性来证明我们方法的可扩展性。

论文:NeurIPS 2017
Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles
作者:
DeepMind
Balaji Lakshminarayanan Alexander Pritzel Charles Blundell

摘要

评估预测不确定性的质量是具有挑战性的,因为通常无法获得“真实的”不确定性估计。在这项工作中,我们将重点关注由神经网络的实际应用驱动的两种评估方法。首先,我们将检查校准[12,13],这是一种频率论的不确定性概念,它测量主观预测和(经验)长期频率之间的差异。校准的质量可以通过适当的评分规则来衡量[17],如对数预测概率和Brier评分[9]。请注意,校准与精度是正交关系:网络的预测可能是准确的,但可能是校准错误的,反之亦然。我们考虑的预测不确定性质量的第二个概念涉及预测不确定性到域移位的泛化(也称为分布外示例[23]),即测量网络是否知道它所知道的。例如,如果在一个数据集上训练的网络在一个完全不同的数据集上进行评估,那么网络应该输出高预测不确定性,因为来自不同数据集的输入将远离训练数据。校准良好的预测对模型错误规范和数据集移动具有鲁棒性,具有许多重要的实际用途(例如,天气预报、医疗诊断)。

最近有很多人对调整神经网络以包含不确定性和概率方法感兴趣。这项工作的大部分是围绕贝叶斯形式[4]展开的,即在神经网络的参数上指定先验分布,然后在给定训练数据的情况下,计算参数上的后验分布,用于量化预测的不确定性。由于精确贝叶斯推理对于神经网络来说在计算上是难以处理的,因此已经开发了各种近似方法,包括拉普拉斯近似[40],马尔可夫链蒙特卡罗(MCMC)方法[46],以及最近关于变分贝叶斯方法[6,19,39],假设密度滤波[24],期望传播[21,38]和随机梯度MCMC变体,如Langevin扩散方法[30,59]和哈密顿方法[53]。使用贝叶斯神经网络获得的预测不确定性的质量主要取决于(i)由于计算约束而产生的近似程度,以及(ii)先验分布是否“正确”,因为方便先验可能导致不合理的预测不确定性[50]。在实践中,与非贝叶斯神经网络相比,贝叶斯神经网络通常更难实现,训练速度也更慢,这就需要一种“通用解决方案”,既能提供高质量的不确定性估计,又只需要对标准训练管道进行微小的修改。

最近,Gal和Ghahramani[15]提出使用蒙特卡罗dropout (MC-dropout)在测试时使用dropout[54]来估计预测不确定性。已经有关于dropout的近似贝叶斯解释[15,29,41]的工作。MC-dropout的实现相对简单,因此在实践中很受欢迎。有趣的是,dropout也可以解释为集成模型组合[54],其中预测在神经网络的集成上平均(参数共享)。集合解释似乎更合理,特别是在dropout率没有基于训练数据进行调整的情况下,因为任何对真实贝叶斯后验分布的合理近似都必须依赖于训练数据。这种解释激发了对集成的研究,作为估计预测不确定性的替代解决方案。

长期以来,人们一直观察到模型集成可以提高预测性能(参见[14]进行综述)。然而,何时以及为什么神经网络的集合可以预期产生良好的不确定性估计并不明显。贝叶斯模型平均(BMA)假设真实模型位于先验的假设类内,并进行软模型选择,在假设类内寻找单个最佳模型[43]。相反,集成执行模型组合,即。他们将这些模型结合起来,得到一个更强大的模型;当真实模型不在假设类内时,可以期望集成更好。我们参考[11,43]和[34,§2.5]进行相关讨论。重要的是要注意,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值