基于概率神经网络的异方差不确定性估计

摘要

捕获任意不确定性是许多机器学习系统的关键部分。在深度学习中,达到这一目的的一种常用方法是训练神经网络,通过最大化观测数据下似然函数的对数来估计异方差高斯分布的参数。在这项工作中,我们研究了这种方法,并确定了与使用对数似然与基于梯度的优化器相关的潜在危险。首先,我们给出一个综合的例子,说明这种方法如何导致非常差但稳定的参数估计。其次,我们确定罪魁祸首是对数概率损失,以及某些加剧问题的条件。第三,我们提出了一种替代公式,称为β- NLL,其中每个数据点对损失的贡献由β-指数方差估计加权。我们表明,在我们的说明性示例中,使用适当的β在很大程度上缓解了这个问题。第四,我们在一系列领域和任务上评估了这种方法,并表明它在预测RMSE和对数似然标准方面取得了相当大的改进,并且在超参数方面表现得更加稳健。

作者:Maximilian Seitzer, Arash Tavakoli, Dimitrije Antic, Georg Martius
题目:On the Pitfalls of Heteroscedastic Uncertainty Estimation with Probabilistic Neural Networks
代码:https://www.catalyzex.com/paper/on-the-pitfalls-of-heteroscedastic
ICLR2022 poster: https://openreview.net/forum?id=aPOpXlnV1T 

关注微信公众号,获取更多资讯内容:
在这里插入图片描述

1 介绍

赋予模型捕捉不确定性的能力在机器学习中是至关重要的。不确定性可以分为两种主要类型:认知(epistemic)不确定性和任意(aleatoric)不确定性(Kiureghian & Ditlevsen, 2009)。认知不确定性解释了模型中的主观不确定性,这种不确定性在给定足够数据的情况下是可简化的。相比之下,任意不确定性捕获了观测中固有的随机性,并且本身可以细分为同均方差不确定性异方差不确定性同方差不确定性对应于在整个输入空间中恒定的噪声,而异方差不确定性对应于随输入空间变化的噪声

对每种不确定性建模都有公认的好处。例如,捕获认知不确定性可以在主动学习中有效地收集预算数据(Gal等人,2017),允许在强化学习中进行有效的探索(Osband等人,2016),并且在成本敏感的决策中不可或缺(Amodei等人,2016)。另一方面,量化任意不确定性可以学习随机过程的动态模型(例如,用于基于模型或离线强化学习)(Chua等人,2018;Yu等人,2020),提高了语义分割、深度回归和目标检测的性能(Kendall & Gal, 2017;Harakeh & Waslander, 2021),并允许风险敏感决策(Dabney等人,2018;Vlastelica et al., 2021)。

我们研究了神经网络回归中量化任意不确定性的一种常用方法。通过假设回归目标遵循特定的分布,我们可以使用神经网络来预测该分布的参数,通常是假设异方差高斯分布时的输入相关均值和方差。然后,可以使用最大似然估计(MLE)来学习网络的参数,即使用随机梯度下降最小化负对数似然(NLL)准则。这个简单的程序,这是事实上的标准(Nix & Weigend, 1994;Lakshminarayanan等人,2017;Kendall & Gal, 2017;Chua等人,2018),已知会受到过度自信的方差估计的影响。鉴于已经提出了缓解这一特定问题的策略(Detlefsen等人,2019;Stirn & Knowles, 2020),我们认为,同样重要的问题是,这一过程还可能导致均值拟合欠佳。在这项工作中,我们分析并提出了一个简单的修改来缓解这个问题。
在这里插入图片描述

图1:训练一个概率神经网络来拟合一个简单的正弦信号是失败的。左: 1 0 7 10^7 107次更新后的学习预测(橙线),阴影区域显示预测的标准差。目标函数为y(x)= 0.4sin(2πx)+ ξ,其中ξ为标准差为0.01的高斯噪声。右:训练的均方根误差(RMSE),超过10个随机种子的均值和标准差。为了进行比较,我们绘制了训练曲线,使用均方误差作为训练目标- 在 1 0 5 10^5 105次更新中实现最佳平均拟合(虚线)。这种行为在不同的优化器、超参数和体系结构中是稳定的(参见章节B.2)。

我们展示了优化神经网络回归的NLL损失的一个缺陷,它阻碍了准确均值预测器的训练(见图1的说明性示例)。其主要原因是梯度对预测方差的高度依赖。虽然这种依赖性通常被认为是导致均值和方差估计器联合优化不稳定的原因(Takahashi等人,2018;Stirn & Knowles, 2020),我们从一个新的角度来看待这种依赖如何进一步成为问题。也就是说,我们假设这个问题是由于NLL损失降低了预测差的数据点相对于预测好的数据点的梯度,导致对预测差的数据点进行了有效的欠采样。

然后,我们引入了一种替代损失公式,称为β- NLL,通过其β指数方差估计加权每个数据点对总体损失的贡献来抵消这一点,其中β控制梯度对预测方差的依赖程度。该公式包含了β = 0时的标准NLL损失,并允许减少梯度对0 < β≤1的方差估计的依赖。有趣的是,使用β = 1完全消除了训练均值估计器的这种依赖性,产生标准均方误差(MSE)损失-但具有不确定性估计的额外能力。最后,我们的经验表明,我们改进的损失公式在很大程度上减轻了拟合不良的问题,在一系列领域和任务上取得了相当大的改进,同时对超参数配置表现出更强的鲁棒性。

2 预热

设X, Y为描述输入和目标的两个随机变量,服从联合分布P(X, Y)。我们假设在给定X的情况下,Y是条件独立的,并且它遵循某个概率分布P(Y | X)。在下文中,我们使用一个常见的假设,即给定X, Y是正态分布的,即 P ( Y ∣ X ) = N ( µ ( X ) , σ 2 ( X ) ) P(Y | X)= N(µ(X),σ^2(X)) P(YX)=N(µ(X)σ2(X)),其中 µ , σ 2 µ,σ^2 µ,σ2分别是真实的依赖于输入的均值和方差函数。同样,我们可以写 Y = µ ( X ) + ϵ ( X ) , ∼ ϵ ( X ) ∼ N ( 0 , σ 2 ( X ) ) Y =µ(X) + \epsilon(X), \sim \epsilon(X)∼N(0,σ^2 (X))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值