【NeurIPS 2020】Deep Evidential Regression

本文提出了一种新的深度学习方法——Deep Evidential Regression,用于估计回归网络的随机和认知不确定性。该方法通过在高斯似然函数上放置证据先验,直接学习证据分布的超参数,无需采样或OOD数据。证据正则化用于在预测错误时夸大不确定性,从而提供校准良好的不确定性估计。实验表明,这种方法在多个基准和复杂视觉任务上表现出色,同时具有对抗性和OOD数据的鲁棒性。
摘要由CSDN通过智能技术生成

Deep Evidential Regression

Alexander Amini (MIT), Wilko Schwarting(MIT), Ava Soleimany(Harvard) and Daniela Rus(MIT)

34th Conference on Neural Information Processing Systems (NeurIPS 2020), V ancouver, Canada.

Paper原文:https://arxiv.org/abs/1910.02600
Tensorflow代码(作者):https://github.com/aamini/evidential-deep-learning
Pytorch代码:https://github.com/deebuls/deep_evidential_regression_loss_pytorch


Abstract

Deterministic Neural Networks(NNs) 正越来越多地应用于关键的安全领域,在这些领域,校准、鲁棒和有效的不确定性措施至关重要。在本文中,我们提出了一种训练非贝叶斯神经网络来估计连续目标及其相关证据的新方法,以学习任意不确定性和认知不确定性。我们通过在原始高斯似然函数上放置证据先验和训练神经网络来推断证据分布的超参数来实现这一点。此外,我们在训练过程中施加先验,使得当模型的预测证据与正确的输出不一致时,模型被正则化。我们的方法不依赖于推理过程中的采样或训练的out-of-distribution(OOD)例子,因此能够实现高效和可扩展的不确定性学习。我们展示了在各种基准上学习校准良好的不确定性度量,扩展到复杂的计算机视觉任务,以及对抗的和OOD测试样本的鲁棒性。


1 Introduction

  • 基于回归的神经网络Regression-based neural networks目前应用于计算机视觉[15]以及机器人和控制[1,6]的安全关键领域,其中的推断其模型不确定性的能力对于最终的大规模应用至关重要。此外,精确和校准的不确定性评估有助于解释置信度,捕捉分布外(OOD)测试样本的域偏移,并识别模型何时可能失败。
  • 神经网络(NN)的不确定性有两个轴可以建模:(1)数据中的不确定性,称为随机不确定性; (2)预测中的不确定性,称为认知不确定性。虽然随机不确定性的表示可以直接从数据中学习,但存在几种估计认知不确定性的方法,如贝叶斯神经网络,它将概率先验置于网络权重之上,并使用采样来近似输出方差[25]。然而,贝叶斯神经网络有一些缺陷,包括难以直接推断给定数据权重的后验分布,推理过程中采样的要求和计算开销,以及如何选择权重先验的问题
  • 相比之下,证据深度学习将学习表述为证据获取过程[42,32]。每一个训练的例子都增加了对学习的高阶证据分布的支持。从这个分布抽样产生低阶似然函数的实例,从中得出数据。不是像贝叶斯神经网络那样把先验放在网络权值上证据方法而是把先验直接放在似然函数。通过训练一个神经网络来输出高阶证据分布的超参数,就可以在不需要采样的情况下学习认知和任意不确定性的基础表示。
  • 到目前为止,证据深度学习的目标是离散分类问题[42,32,22],并且要求对最大不确定先验的明确距离度量[42],或者依靠OOD数据的训练来扩大模型的不确定性[32,31]。相比之下,连续回归问题表现出缺乏明确的距离度量来规范推断的证据分布的复杂性。此外,在大多数应用中,预先定义一个合理的OOD数据集并不容易;因此,仅从分布内训练集中获得OOD数据的校准不确定度的方法是必需的。
  • 我们提出了一种新的方法,通过学习证据分布来模拟回归网络的不确定性(图1)。具体而言,这项工作做出了以下贡献:
    1. 一种新的、可扩展的方法,用于学习回归问题中的认知和随机不确定性,在推断或训练过程中无需采样,使用OOD数据;
    1. 为连续回归问题制定证据正则化,这对于惩罚关于错误和OOD例子的错误证据是必要的;
    1. 评估基准和复杂视觉回归任务的认知不确定性,并与最先进的神经网络不确定性估计技术进行比较;
    1. 对OOD和对抗扰动测试输入数据的鲁棒性和校准评估。
      在这里插入图片描述

图1:证据回归同时学习一个连续的目标以及任意的(数据)和认知的(模型)不确定性。给定一个输入,网络被训练来预测证据分布的参数,该证据分布对个体似然参数(,σ2)的高阶概率分布建模。


2 Modelling uncertainties from data数据中的建模不确定性

2.1Preliminaries正文前书页

  • 考虑下面的监督优化问题:给定一个数据集 D D D N N N对训练例子, D = { x i , y i } i = 1 N \mathcal{D}=\left\{\boldsymbol{x}_{i}, y_{i}\right\}_{i=1}^{N} D={ xi,yi}i=1N我们的目标是学习由一组权重 w w w参数化的函数映射 f f f,它近似地解决了以下优化问题:
  • min ⁡ w J ( w ) ; J ( w ) = 1 N ∑ i = 1 N L i ( w ) \min _{\boldsymbol{w}} J(\boldsymbol{w}) ; \quad J(\boldsymbol{w})=\frac{1}{N} \sum_{i=1}^{N} \mathcal{L}_{i}(\boldsymbol{w}) minwJ(w);J(w)=N1i=1NLi(w) -------------------------(1)
  • 其中 L i ( ⋅ ) \mathcal{L}_{i}(·) Li()描述了损失函数。在这项工作中,我们考虑确定性回归问题,它通常优化误差平方和, L i ( w ) = 1 2 ∥ y i − f ( x i ; w ) ∥ 2 \mathcal{L}_{i}(\boldsymbol{w})=\frac{1}{2}\left\|y_{i}-f\left(\boldsymbol{x}_{i} ; \boldsymbol{w}\right)\right\|^{2} Li(w)=21yif(xi;w)2。在这样做时,模型被鼓励学习给定输入的平均正确答案,但是在进行估计时,不明确地对数据中的任何潜在噪声或不确定性建模。

2.1Maximum likelihood estimation最大似然估计

  • 我们可以从最大似然的角度来处理这个问题,我们学习模型参数,最大化观察特定训练数据集的可能性。在确定性回归的背景下,我们假设我们的目标 y i {y}_{i} yi是从一个分布(如具有均值和方差参数 θ = ( μ , σ 2 ) \boldsymbol{\theta}=\left(\mu, \sigma^{2}\right) θ=(μ,σ2)的高斯分布)中提取的。在最大似然估计(MLE)中,我们旨在学习一个模型来推断 θ \boldsymbol{\theta} θ,该模型最大化观察我们的目标 y y y的可能性,由 p ( y i ∣ θ ) p\left(y_{i} \mid \boldsymbol{\theta}\right) p(yiθ)给出。这是通过最小化负对数似然损失函数来实现的:
  • L i ( w ) = − log ⁡ p ( y i ∣ μ , σ 2 ⏟ θ ) = 1 2 log ⁡ ( 2 π σ 2 ) + ( y i − μ ) 2 2 σ 2 \mathcal{L}_{i}(\boldsymbol{w})=-\log p(y_{i} \mid \underbrace{\mu, \sigma^{2}}_{\theta})=\frac{1}{2} \log \left(2 \pi \sigma^{2}\right)+\frac{\left(y_{i}-\mu\right)^{2}}{2 \sigma^{2}} Li(w)=logp(yiθ μ,σ2)=21log(2πσ2)+2σ2(yiμ)2------------------------------(2)
  • 在学习 θ \boldsymbol{\theta}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值