贝叶斯神经网络

最新推荐文章于 2024-02-28 18:01:29 发布

One.Wan

最新推荐文章于 2024-02-28 18:01:29 发布

阅读量2.7k

点赞数 1

分类专栏：机器学习文章标签：机器学习神经网络深度学习

本文链接：https://blog.csdn.net/tauyangdao/article/details/121129086

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

贝叶斯神经网络

1 人工神经网络的作用与局限

人工神经网络（artificial neural network，缩写ANN），简称神经网络（neural network，缩写NN）或类神经网络，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，主要用于对函数进行估计或近似。

在神经网络的训练中，就是训练网络中的参数以实现预测的结果如下所示

y_{predict} = W^T * x +b

对于一个神经网络来说，最为核心的是如何根据训练集的数据，得到各层的模型参数，使得Loss最小，因其强大的非线性拟合能力而在各个领域有着重要应用。而其问题是在数据量较少的情况下存在严重的过拟合现象，对于获得数据代价昂贵的一些课题比如车辆控制等领域，应用存在局限性。

2 贝叶斯网络简介

贝叶斯神经网络（BNN）不同于一般的神经网络，其权重参数是随机变量，而非确定的值。贝叶斯神经网络把权重看成是服从均值为 $\mu$ ，方差为 $\delta$ 的高斯分布，每个权重服从不同的高斯分布，反向传播网络优化的是权重，贝叶斯神经网络优化的是权重的均值和方差。BNN把概率建模和神经网络结合起来，并能够给出预测结果的置信度。

2.1 BNN模型

假设BNN的网络参数为 $W$ , $p (W)$ 是参数的先验分布，给定观测数据 $D = X, Y$ , 这里 $X$ 是输入数据， $Y$ 是标签数据。BNN 希望给出以下的分布：

网络的预测值为：

P(Y|X,D)=\int P(Y|X,W)P(W|D) dW

(1)
由于

W

是随机变量，因此，我们的预测值也是个随机变量。

P (Y ∣ X, W)

表示给定权重

W

和输入

X

，输出

Y

的概率分布，其实就是神经网络。我们只需要依据训练集

D

建模出权重的分布

P (W ∣ D)

，就可以依据蒙特卡罗方法，采样

m

个服从

P (W ∣ D)

分布的样本，计算

\frac{1}{m}\sum_{i=1}^mp(Y|X,W_i)

,即可得到

p (Y ∣ X, D)

。

其中：

P(W|D)=\frac{P(W)P(D|W)}{P(D)}

(2)

P (W ∣ D)

是后验分布,

P (D ∣ W)

是似然函数，

P (D)

是边缘似然。

2.2 基于变分推断的BNN训练

上述公式 $(1)$ 说明用NN 对数据进行概率建模并预测的核心在于做高效近似后验推断。如果直接采样后验概率 $P (W ∣ D)$ 来评估 $p (Y ∣ X, D)$ 的话，存在后验分布多维的问题，而变分推断的思想是使用简单分布去近似后验分布。
核心思想是利用一个分布利用一个分布 $q(W|\theta)$ 来逼近 $p (W ∣ D)$ ，利用KL散度度量 $q(W|\theta)$ 、 $p (W ∣ D)$ 两个分布之间的相似性。其中 $\theta = (\mu,\delta)$ , 表示每个权重 $w_i$ 从正态分布 $(\mu_i,\delta_i)$ 中采样。希望 $q(W|\theta)$ 和 $p (W ∣ D)$ 距离最小，也就是优化：

\theta^*=\argmin_{\theta} KL[q(W|\theta)||p(W|D)]

(3)
进一步推导：

\theta^*=\argmin_{\theta} KL[q(W|\theta)||p(W|D)]

\argmin_{\theta} E_{q(W|\theta)}[log[\frac{q(W|\theta)}{p(W|D)}]]

(KL散度的定义)

\argmin_{\theta} E_{q(W|\theta)}[log[\frac{q(W|\theta)P(D)}{P(D|W)P(W)}]]

（贝叶斯理论）

\argmin_{\theta} E_{q(W|\theta)}[log[\frac{q(W|\theta)}{P(D|W)P(W)}]]

（P(D)不依赖于

\theta

,消去） (4)

公式中， $q(W|\theta)$ 表示给定正态分布的参数后，权重参数的分布。 $P (D ∣ W)$ 表示给定网络参数后，观测数据的似然； $P (W)$ 表示权重的先验。

使用

E_{q(W|\theta)}[log[\frac{q(W|\theta)}{P(D|W)P(W)}]]

(5) 来表示变分下界ELBO，也就是公式（4）等价于最大化ELBO：

L=\sum_{i}log q(w_i|\theta_i) - \sum_ilogP(w_i) - \sum_j logP(y_j| w,x_j)

(6)

其中， $D={(x,y)}$ .
我们需要对公式（4）中的期望进行求导，但是，这里，我们使用对权重进行重参数的技巧：

w_i = \mu_i +\sigma_i\times \epsilon_i

(7)
其中,

\epsilon_i\sim N(0,1)

。
于是，用

\epsilon

代替

w

后有：

\frac{\partial}{\partial \theta}E_{q(\epsilon)}[log[\frac{q(W|\theta)}{P(D|W)P(W)}]] = E_{q(\epsilon)}[\frac{\partial}{\partial \theta} log[\frac{q(W|\theta)}{P(D|W)P(W)}]]

(8)
也就是说，我们可以通过多个不同的

\epsilon_i\sim N(0,1)

，求取

\frac{\partial}{\partial \theta} log[\frac{q(W|\theta)}{P(D|W)P(W)}]

的平均值，来近似 KL 散度对

\theta

的求导。
此外，除了对

w

进行重采样之外，为了保证

\theta

参数取值范围包含这个实轴，对

\delta

进行重采样，可以令，

\delta=log(1+e^{\rho})

(9)

然后， $\theta = (\mu,\rho)$ .

2.3 BNN 算法流程

从 $N(\mu, log(1+e^{\rho}))$ 中采样，获得 $w$ ;
分别计算 $logq(w|\theta)$ 、 $l o g p (w)$ 、 $l o g p (y ∣ w, x) .$ 其中，计算 $l o g p (y ∣ w, x)$ 实际计算 $log p(y|y_{pre})，y_{pre}=w*x$ 。也就可以得到 $L=\sum_{i}log q(w_i|\theta_i) - \sum_ilogP(w_i) - \sum_j logP(y_j| w,x_j)$ (6)
更新参数 $\theta' = \theta - \alpha \bigtriangledown_\theta L$ .

One.Wan

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
贝叶斯神经网络

贝叶斯神经网络1 人工神经网络的作用人工神经网络（artificial neural network，缩写ANN），简称神经网络（neural network，缩写NN）或类神经网络，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，主要用于对函数进行估计或近似。在神经网络的训练中，就是训练网络中的参数以实现预测的结果如下所示ypredict=WT∗x+by_{predict} = W^T * x +bypredict=WT∗x+b对于一个神经网络来说，最
复制链接

扫一扫

专栏目录