What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision? 计算机视觉用于贝叶斯深度学习的不确定性

最新推荐文章于 2025-04-07 23:23:58 发布

Xieyuanli_Chen

最新推荐文章于 2025-04-07 23:23:58 发布

阅读量1.3w

点赞数 26

文章标签：深度学习贝叶斯计算机视觉不确定性语义分割

本文链接：https://blog.csdn.net/weixin_39779106/article/details/78968982

版权

本文探讨了在计算机视觉中，贝叶斯深度学习如何处理两种不确定性——偶然不确定性与认知不确定性。通过结合两种不确定性，提出了一种新的框架，用于语义分割和深度回归任务，提高了模型的性能和鲁棒性。实验结果显示，这种结合在分类和回归问题中都有显著效果，特别是在处理噪声和不确定性较大的场景时。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本博客仅为作者记笔记之用，不对之处，望见谅，欢迎批评指正。
更多相关博客请查阅：http://blog.csdn.net/weixin_39779106；
如需转载，请附上本文链接：http://blog.csdn.net/weixin_39779106/article/details/78968982

原论文链接

一、摘要：

主要有两大类不确定性，偶然不确定性（aleatoric uncertainty）和认知不确定性（epistemic uncertainty），偶然不确定性用来描述观测中固有的噪声；认知不确定性则是用来描述模型中的不确定性。认知不确定性往往比较难计算，但现在可以利用基于贝叶斯深度学习的方法进行求解。本文利用贝叶斯深度学习方法对两种不确定性进行建模用以解决计算机视觉中的相关问题。
本文提出了一种结合偶然不确定性以及认知不确定性的贝叶斯深度学习架构。本文利用该架构完成素级的语义分割和深度回归的任务。
同时，基于所提出的不确定性公式，本文针对以上问题设计了新的损失函数，这使得衰减项对噪声具有更高的鲁棒性，同时得到目前性能最好的语义分割和深度回归结果。

二、介绍：

很多机器学习算法可以很好地将高维空间的数据映射成低维数组，但很少考虑这些映射的准确率，从而导致很多灾难性的后果。
量化不确定性在计算机视觉领域可以被分为回归和分类两大类。现存的描述不确定性的方法有粒子滤波法，条件随机场法。深度学习方法往往很难描述不确定性。例如在分类问题中，深度学习算法常常更够给出归一化的得分向量，但是不需要计算模型的不确定性。基于贝叶斯的深度学习算法则可以在拥有深度学习高性能的同时计算出模型的不确定性。
同方差不确定性（homoscedastic）和异方差不确定性（heteroscedastic）。偶然不确定性是同方差不确定性，是模型固有不确定性；认知不确定性是异方差不确定性，是由于每个输入的噪声不同造成的。
在大数据背景下对偶然不确定性进行建模是十分重要的，偶然不确定性往往是不能通过大量数据进行解释的，因此本文提出一种统一的贝叶斯深度学习框架对偶然不确定性进行映射并将其与认知不确定性相结合，本文所提出的框架可同时在分类和回归问题中进行使用。

创新点：

我们掌握了对偶然和认知不确定性的精确的描述方法，特别的，我们提出了一种新的基于不确定性的分类方法。
通过明确表示出偶然不确定性而获得的隐含衰减（the implied attenuation）减少了噪声的影响，基于此，我们提出的模型可以提高非贝叶斯模型性能的1-3%。
本文通过表征两种不确定性的特性以及比较两种模型的性能和计算时间来研究如何对两者进行权衡。

三、相关工作：

1. 在贝叶斯深度学习中如何对认知不确定性进行建模：

根据先验分布对神经网络权重进行初始化，例如利用高斯分布初始化。
贝叶斯神经网络(BNN)的权值不是特定的数值，而是用概率分布来表示。在对权值进行优化时，不直接优化数值，而是对所有可能的权值进行平均（也称为边缘化‘marginalisation’）。
定义BNN络的随机输出为 $f^W(x)$ ,模型的似然概率为 $p(y|f^W(x))$ ,给定数据集及标注为 $X=(x_1,...,x_N)$ , $Y=(y_1,...,y_N)$ ，我们可以利用贝叶斯公式计算出权值的后验概率 $p(W|X,Y)$
针对回归模型，我们通常定义模型似然为均值是模型输出的高斯分布 $p(y|f^W(x))=N(f^W(x),\sigma^2)$ ,其中 $\sigma$ 是观测噪声的标准差；针对分类问题，我们通常利用softmax函数对结果进行抽样从而定义模型的似然 $p(y|f^W(x))=Softmax(f^W(x))$ 。
BNN很容易进行构建，但不易计算，这是因为用于估计后验概率 $p(W|X,Y)=p(Y|X,W)p(W)/p(Y|X)$ 的边际概率 $p(Y|X)$ 是无法直接进行计算的。通常人们采用近似的方法，利用带参数 $\theta$ 的简单分布 $q_\theta^*(W)$ 来代替后验概率 $p(W|X,Y)$ ，最终对简单分布的参数进行优化而不是优化原BNN的参数，这样做可以解决对BNN中所有权值求平均值的难题。
Dropout变分推理是常用的在大型复杂模型中进行近似推理的方法。通过在对网络进行训练时在每层之前加入一个Dropout，以及在测试时加入Dropout进行采样（称为蒙特卡洛dropout）从而实现近似计算。换句话说，这个方法相当于我们利用简单的分布 $q_\theta^*(W)$ 通过最小化KL散度来近似得到模型真实的后延概率。Dropout可以被理解为一种变分贝叶斯的近似，是两个小方差高斯分布的融合，其中一个高斯分布的均值为0。最小化目标为下式，其中 $N$ 为数据个数，dropout的概率为 $p$ ,采样 $\hat{W_i}\sim q_\theta^*(W)$ , $\theta$ 为简单分布的优化参数（实际为带dropout的权值矩阵）。
$L (θ, p) = - 1 N \sum i = 1 N log p (y i | f W i^(x i)) + 1 - p 2 N | | θ |$

最低0.47元/天解锁文章