TrustGeo参文2:Deep evidential regression(深度证据回归)正文部分

34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada.

[2] Alexander Amini, Wilko Schwarting, Ava Soleimany, and Daniela Rus. 2020. Deep evidential regression. Advances in Neural Information Processing Systems 33 (2020), 14927–14937

Paper原文:https://arxiv.org/abs/1910.02600
Tensorflow代码(作者):GitHub - aamini/evidential-deep-learning: Learn fast, scalable, and calibrated measures of uncertainty using neural networks!
Pytorch代码:GitHub - deebuls/deep_evidential_regression_loss_pytorch: Implementation of Deep evidential regression paper

ABSTRACT

确定性神经网络(NNs)越来越多地部署在安全关键领域,在这些领域中,校准(calibrated)、鲁棒(robust)和有效的不确定性度量(measures of uncertainty)是至关重要的。在本文中,我们提出了一种新的方法来训练非贝叶斯神经网络(non-Bayesian NNs来估计连续目标及其相关证据(continuous target as well as its associated evidence),以学习任意和认知的不确定性(aleatoric and epistemic uncertainty。我们通过在原始高斯似然函数(original Gaussian likelihood function上放置证据先验(evidential priors,然后训练NN来推断证据分布evidential distribution)的超参数来实现这一点。我们在训练过程中增加先验,当预测证据与正确输出不对齐时,模型被正则化。

​我们的方法不依赖于推理过程中的抽样,也不依赖于分布外(out-of-distribution,OOD)的例子来进行训练,从而实现了高效和可扩展的不确定性学习。我们演示了在各种基准上学习良好校准的不确定性度量,扩展到复杂的计算机视觉任务,以及对对抗性和OOD测试样本的鲁棒性。

(补充)OOD在机器学习和深度学习的上下文中,指的是模型在训练时未见过的数据分布。换句话说,当模型面对的数据样本不属于其训练数据所代表的分布时,这些数据就被认为是OOD的。

1 Introduction

基于回归的神经网络(NNs)正在部署在计算机视觉[15]以及机器人技术和控制[1,6]的安全关键领域,在这些领域,推断模型不确定性的能力对于最终大规模采用至关重要。此外,精确(precise)和校准的不确定性估计(calibrated uncertainty estimates)对于解释置信度、捕获分布外(OOD)测试样本的域偏移以及识别模型何时可能失败是有用的。

[15] Clément Godard, Oisin Mac Aodha, and Gabriel J Brostow. Unsupervised monocular depth estimation with left-right consistency. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 270–279, 2017.

[1] Alexander Amini, Guy Rosman, Sertac Karaman, and Daniela Rus. Variational end-to-end navigation and localization. In 2019 International Conference on Robotics and Automation (ICRA), pages 8958–8964. IEEE, 2019.

[2] Alexander Amini, Ava Soleimany, Sertac Karaman, and Daniela Rus. Spatial uncertainty sampling for end-to-end control. arXiv preprint arXiv:1805.04829, 2018.

[3] Alexander Amini, Ava P Soleimany, Wilko Schwarting, Sangeeta N Bhatia, and Daniela Rus. Uncovering and mitigating algorithmic bias through learned latent structure. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society, pages 289–295, 2019.

[4] Christopher M Bishop. Mixture density networks. In Tech. Rep. NCRG/94/004, Neural Computing Research Group. Aston University, 1994.

[5] Charles Blundell, Julien Cornebise, Koray Kavukcuoglu, and Daan Wierstra. Weight uncertainty in neural networks. arXiv preprint arXiv:1505.05424, 2015.

[6] Mariusz Bojarski, Davide Del Testa, Daniel Dworakowski, Bernhard Firner, Beat Flepp, Prasoon Goyal, Lawrence D Jackel, Mathew Monfort, Urs Muller, Jiakai Zhang, et al. End to end learning for self-driving cars. arXiv preprint arXiv:1604.07316, 2016.

神经网络的不确定性有两个轴可以被建模: (1)数据中的不确定性,称为任意性不确定性(aleatoric uncertainty),和(2)预测中的不确定性,称为认知不确定性(epistemic uncertainty)。

虽然任意不确定性的表示可以直接从数据中学习,但有几种方法来估计认知不确定性,如贝叶斯神经网络(Bayesian NNs,它将概率先验置于网络权值上,并使用抽样来近似输出方差(approximate output variance[25]。然而,贝叶斯神经网络面临着一些局限性,包括难以直接推断给定数据权重的后验分布,推理过程中采样的要求和计算费用,以及如何选择权值先验的问题。

[25] Alex Kendall and Yarin Gal. What uncertainties do we need in bayesian deep learning for computer vision? In Advances in neural information processing systems, pages 5574–5584, 2017.

相比之下,证据深度学习(evidential deep learning)将学习作为一个证据获取过程(evidence acquisition process[42,32]。每个训练例子都为学习到的高阶证据分布(higher-order, evidential distribution增加了支持。从这个分布中抽样可以产生从中提取数据的低阶似然函数(lower-order likelihood functions的实例。证据方法不像在贝叶斯神经网络中所做的那样,将先验置于网络权重上,而是将先验直接置于似然函数(likelihood function)之上。通过训练神经网络输出高阶证据分布(higher-order evidential distribution)的超参数,就可以在不需要抽样的情况下学习认知和任意不确定性的基础表示。

[42] Murat Sensoy, Lance Kaplan, and Melih Kandemir. Evidential deep learning to quantify classification uncertainty. In Advances in Neural Information Processing Systems, pages 3179– 3189, 2018.

[32] Andrey Malinin and Mark Gales. Predictive uncertainty estimation via prior networks. In Advances in Neural Information Processing Systems, pages 7047–7058, 2018.

到目前为止(To date),证据深度学习的目标是离散分类问题(discrete classification problems[42,32,22],并且需要一个明确定义良好的距离度量来达到最大不确定的先验(maximally uncertain prior[42],或者依赖于OOD数据的训练来增加模型的不确定性(inflate model uncertainty[32,31]。相比之下,连续回归问题呈现了缺乏一个明确定义的距离度量来规范推断的证据分布的复杂性。此外,在大多数应用程序中,预先定义一个合理的OOD数据集不是重要的;因此,需要仅从分布内训练集(in-distribution training set获得OOD数据的校准不确定性(calibrated uncertainty的方法。

[22] Taejong Joo, Uijung Chung, and Min-Gwan Seo. Being bayesian about categorical probability. arXiv preprint arXiv:2002.07965, 2020.

[31] Andrey Malinin. Uncertainty Estimation in Deep Learning with application to Spoken Language Assessment. PhD thesis, University of Cambridge, 2019.

我们提出了一种新的方法,通过学习到的证据分布(learned evidential distributions)模拟回归网络的不确定性(models the uncertainty of regression networks(图1)。具体来说,这项工作做出了以下贡献:

1。一种新的和可扩展的方法来学习回归问题的认知和任意不确定性,不抽样在推理或训练OOD(分布外的数据);

2。为连续回归问题制定证据正则化器(Formulation of an evidential regularizer,这对于惩罚错误证据(penalizing incorrect evidence on errors)和ODD例子是必要的;

3。评估基准和复杂视觉回归任务上的认知不确定性,并与最先进的神经网络不确定性估计技术进行比较;

4。对OOD和逆扰动测试输入数据(adversarially perturbed test input data)的鲁棒性和校准评估。

​图1:证据回归同时学习连续目标以及任意(数据)和认知(模型)的不确定性。给定一个输入,网络被训练为预测证据分布的参数\left ( \mu ,\sigma ^{2} \right )该分布对个体似然参数(individual likelihood parameters)的高阶概率分布(higher-order probability distribution)进行建模。

2 Modelling uncertainties from data 从数据中建模的不确定性

2.1 Preliminaries 定义

考虑以下监督优化问题:给定一个数据集D,N对训练例子,D=\left \{ x_{i},y_{i} \right \}_{i=1}^{N},我们的目标是学习一个函数映射f,由一组权值参数化w,它近似解决了以下优化问题:

​其中,L_{i}\left ( \cdot \right )描述了一个损失函数。在这项工作中,我们考虑了确定性回归问题,它通常优化了误差的平方和,L_{i}\left ( w \right )=\frac{1}{2}\left \| y_{i}-f(x_{i};w) \right \|^{2}。在这样做的过程中,模型被鼓励学习给定输入的平均正确答案,但在进行估计时,并没有明确地建模数据中的任何潜在噪声或不确定性。

2.2 Maximum likelihood estimation(MLE)

最大似然估计

我们可以从最大似然的角度来解决这个问题,其中我们学习模型参数,以最大限度地观察一组特定的训练数据的可能性。在确定性回归的背景下,我们假设我们的目标,y_{i},是从一个分布中独立抽取的,例如具有均值和方差参数的高斯分布\theta =(\mu ,\sigma ^{2})。在最大似然估计(MLE)中,我们的目标是学习一个模型来推断\theta,以最大限度地观察我们的目标的可能性,y由p(y_{i}|\theta )给出。这是通过最小化负对数似然损失函数来实现的:

在学习\theta时,这个似然函数成功地模拟了数据中的不确定性,也被称为任意不确定性。然而,我们的模型忽略了其预测的认知不确定性[25]。

[25] Alex Kendall and Yarin Gal. What uncertainties do we need in bayesian deep learning for computer vision? In Advances in neural information processing systems, pages 5574–5584, 2017.

在本文中,我们提出了一种新的方法来估计支持回归网络预测的证据,通过直接学习数据中存在的任意性不确定性和模型潜在的认知不确定性。我们通过将高阶先验分布置于学习参数上来实现这一点,这些参数控制了我们观察的分布。

3 Evidential uncertainty for regression 回归的证据不确定性

3.1 Problem setup 问题设置

我们考虑所观察到的目标y_{i}是从一个分布中独立抽取的,,如在标准的MLE(见2.2部分),但现在有未知的均值

  • 18
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值