深度学习中的两种不确定性：偶然不确定性和认知不确定性（Aleatoric Uncertainty & Epistemic Uncertainty）

最新推荐文章于 2025-04-07 23:23:58 发布

Hali_Botebie

最新推荐文章于 2025-04-07 23:23:58 发布

阅读量7.3k

点赞数 15

分类专栏：深度学习中的确定性文章标签：深度学习机器学习人工智能

原文链接：https://zhuanlan.zhihu.com/p/56986840

版权

深度学习中的确定性专栏收录该内容

2 篇文章

订阅专栏

转载：https://zhuanlan.zhihu.com/p/56986840

注: 本文中，概念、公式与实验均基于 Alex Kendall & Yarin Gal的论文:https://arxiv.org/pdf/1703.04977.pdf

不确定性（Uncertainty）

现在我们传统深度学习算法几乎只能给出一个特定的结果，而不能给出模型自己对结果有多么confident. 的确，在分类问题中，我们会在网络的最后一层添加一个softmax函数来获得概率，但是我们的模型很会给出一个结果，而没有办法告诉我们“我真不知道这是个什么鬼。” 来表示自己对结果不确定。

那么如何让网络获得一个置信度的输出呢？目前一个非常普遍的方法是利用BNN (Bayesian Neural Network)。BNN的原理大体上是，我们网络中每个参数的weight将不再是一个特定的数字，取而代之的是一个先验分布。这样我们train出来的网络将不再是一个函数，而是一个函数的分布[2]。通过这个分布，我们便可以得到一个对结果的置信度。但是，实现过BNN和使用过pyro的朋友们应该知道，BNN是比较难应用在动辄上百卷积层的大型网络上的。它的训练速度，计算复杂度，都限制了它的发展。

本文将讨论深度学习中不同原因导致的不确定性，并介绍如何量化这些不确定性。我们将通过一种名为MC Dropout (Monte Carlo Dropout)的方法来进行贝叶斯推断，之后对loss function的修改来得到不确定性。

1 偶然不确定性和认知不确定性（Aleatoric Uncertainty & Epistemic Uncertainty）

我们先来解释深度学习中存在的两种种类不同的不确定性。

1.1 偶然不确定性

我们初高中学物理的时候，老师肯定提过偶然误差这个词。我们做小车下落测量重力加速度常数的时候，每次获得的值都会有一个上下起伏。这是我们因为气流扰动，测量精度不够等原因所造成的，是无法被避免的一类误差。在深度学习中，我们把这种误差叫做偶然不确定性。

从深度学习的角度来举例子，我们举一个大家应该很比较熟悉的人脸关键点回归问题[3]:
在这里插入图片描述
我们可以看到，对于很相似的一组数据，dataset的标注出现了比较大的误差（见右图的右侧边缘）。这样的误差并不是我们模型带入的，而是数据本来就存在误差。数据集里这样的bias越大，我们的偶然不确定性就应该越大。

1.2 认知不确定性

认知不确定性是我们模型中存在的不确定性。就拿我们文章一开始举的例子来说，假设我们训练一个分类人脸和猩猩脸的模型，训练中没有做任何的增强，也就是说没有做数据集的旋转，模糊等操作。如果我给模型一个正常的人脸，或者是正常猩猩的脸，我们的模型应该对他所产生的结果的置信度很高。但是如果我给他猫的照片，一个模糊处理过得人脸，或者旋转90°的猩猩脸，模型的置信度应该会特别低。换句话说，认知不确定性测量的，是我们的input data是否存在于已经见过的数据的分布之中。