机器学习 | 贝叶斯神经网络

最新推荐文章于 2025-04-19 14:01:57 发布

rookiexiong

最新推荐文章于 2025-04-19 14:01:57 发布

阅读量2.3k

点赞数 28

分类专栏：机器学习文章标签：机器学习神经网络人工智能

本文链接：https://blog.csdn.net/m0_62249876/article/details/136352596

版权

机器学习专栏收录该内容

10 篇文章

订阅专栏

本文探讨了贝叶斯神经网络如何通过引入参数的概率分布来表示模型不确定性，特别是通过拉普拉斯近似和线性化方法来估计不确定性。文章还强调了超参数优化在BNN性能中的关键作用，以及如何通过模型校准调整不确定性估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习 | 贝叶斯神经网络

贝叶斯神经网络通过引入参数的概率分布来描述模型的不确定性。与传统的确定性神经网络不同，BNNs 通过学习参数的后验分布来对模型进行建模，从而在预测中提供不确定性的估计。

让 $(x,\theta)\mapsto g_{\boldsymbol{\theta}}(\boldsymbol{x})$ 定义的 $\mathcal{X} \times \Theta \rightarrow \mathcal{Y}$ 作为神经网络（NN），其中 $g_{\theta}(x)$ 是由 $x$ 和 $\theta$ 确定的函数。贝叶斯神经网络（BNNs）的主要假设是通过一个简单的分布来近似参数 $g$ 的后验分布 $p(\theta | D)$ ，该分布在参数空间 $\Theta \subseteq \mathbb{R}^P$ 上编码了不确定性。

标准的点估计定义为：
$\theta_*=\underset{\boldsymbol{\theta}\in\Theta}{\operatorname*{\arg\max}}\underbrace{\log p(\mathcal{D}\mid\boldsymbol{\theta})+\log p(\boldsymbol{\theta})}_{=\log p(\boldsymbol{\theta}\mid\mathcal{D})\mathrm{-const}}$

其中 $\log p(D | \theta)$ 是对数似然损失， $\log p(\theta)$ 是对参数 $\theta$ 的正则化项，虽然在参数空间上可以被视为对 $\Theta$ 的狄拉克雷分布，但并不是一个 BNN，因为根据任何标准度量（方差、熵等），它都具有零不确定性。

拉普拉斯近似（LA）

其中最简单的贝叶斯神经网络之一是拉普拉斯近似（LA），并且越来越多地被用于贝叶斯优化（BO）。给定一个（局部）最大值 $\theta^*$ ，拉普拉斯近似拟合了一个以 $\theta^*$ 为中心的高斯分布 $q(\theta | D) := \mathcal{N}(\theta^*, \Sigma^*)$ ，其中协方差由逆海森矩阵给出，即

$\Sigma^* = (-\nabla^2_{\theta} \log p(\theta | D)|_{\theta^*})^{-1}$

线性化拉普拉斯近似（LLA）

拉普拉斯近似的一个流行类别是线性化拉普拉斯近似（LLA），它通过广义高斯-牛顿矩阵近似海森矩阵，并对神经网络在参数空间上进行线性化 $g^{\text{lin}}_{\theta}(x) = g_{\theta^*}(x) + J^*(x) \cdot (\theta - \theta^*)$ 。这里， $J^*(x)$ 是网络在 $\theta^*$ 处的雅可比矩阵 $\left({\partial g}/{\partial \theta}|_{\theta^*}\right)$ 。需要注意的是，网络函数 $\rightarrow g^{\text{lin}}_{\theta}(x)$ 仍然是非线性的。

关键是，由于 $g$ 在 $\theta$ 上的线性性以及 $\theta$ 的高斯性，输出分布 $p(\text{g}^{\text{lin}}(x) | D) = \int \text{g}^{\text{lin}}_{\theta}(x) q(\theta | D) d\theta$ 也是高斯的，给出为

$p(\text{g}^{\text{lin}}(x) | D) = \mathcal{N}(\text{g}_{\theta^*}(x), J^*(x)\Sigma J^*(x)^{\top})$

超参数优化与模型校准

BNNs 的性能和稳定性在很大程度上取决于超参数的选择，例如权重衰减强度和数据噪声强度。因此，优化超参数成为了重要的研究方向。

事实上， $p(\text{g}^{\text{lin}} | D)$ 是一个具有神经网络 $g$ 作为均值函数和与经验神经切向核相关的协方差函数的高斯过程（GP）。

这些事实使得线性化拉普拉斯近似（LLA）具有解释性：它简单地为原始神经网络预测 $g_{\theta^*}(x)$ 添加了一个不确定性估计。这种不确定性可以通过拉普拉斯近似的边缘似然近似进行进一步校准：

$Z(\gamma) = \log p(\theta^*|D; \gamma) + \frac{P}{2} \log 2\pi + \frac{1}{2} \log |\Sigma^*(\gamma)|$

其中明确地表明了后验和海森矩阵对超参数 $\gamma$ 的依赖性。例如， $\gamma$ 可以是一个集合，其中包含了权重衰减强度（对应于 $\Theta$ 上的高斯先验的先验精度）以及 $g$ 的似然中的噪声强度。在这种设置下，优化 $\max_{\gamma} \log Z(\gamma)$ 可以被看作是学习一个合适的先验并估计数据噪声。