神经网络学习笔记-受限波尔兹曼机（Restricted Boltzmann Machines）

最新推荐文章于 2023-06-03 10:58:55 发布

qetang

最新推荐文章于 2023-06-03 10:58:55 发布

阅读量807

点赞数 1

分类专栏：神经网络文章标签： RBM 受限波尔兹曼机

本文链接：https://blog.csdn.net/qetang/article/details/79445600

版权

神经网络专栏收录该内容

3 篇文章 0 订阅

订阅专栏

受限波尔兹曼机（Restricted Boltzmann Machines,RBM）是一类具有两层结构，对称连接且无自反馈的随机神经网络模型，层间全连接，层内无连接。
当给定可见层神经元的状态时，各隐藏层神经元的之间是否激活是条件独立的；反之也同样成立。

基于能量模型。Hinton提出针对其的训练算法(对比散度算法)
实践证明，RBM是一种有效的特征提取方法，用于初始化前馈神经网络可明显提高泛化能力，堆叠多个RBM组成的DBN能提取更抽象的特征。
利用RBM的堆叠可以构造出深层的神经网络模型——深度信念网(Deep Belief Net, DBN)
每个节点都是一个二值的随机变量
这里写图片描述

隐藏层的神经元的个数为 $n_h$ ，
隐藏层神经元的状态 $h=(h_1,h_2,...,h_{n_h})^T\in R^{n_h}$
隐藏层神经元的偏置 $b=(b_1,b_2,...,b_{n_h})^T\in R^{n_h}$

假设可见层的神经元的个数为 $n_v$ ，
可见层神经元的状态 $v=(v_1,v_2,...,v_{n_v})^T\in R^{n_v}$ ,
可见层神经元的偏置 $a=(a_1,a_2,...,a_{n_v})^T\in R^{n_v}$ ,

隐藏层与可见层之间的连接权重 $W=(w_{ij})\in R^{{n_h}\times {n_v}}$

网络参数 $\theta=(W,a,b)$

联合组态的能量公式

E θ (v, h) = - \sum i = 1 n v a i v i - \sum j = 1 n h b j h j - \sum i = 1 n v \sum j = 1 n h h j w i j v i

$E_{\theta}(v,h)=-\sum_{i=1}^{n_v}a_i v_i-\sum_{j=1}^{n_h}b_j h_j -\sum_{i=1}^{n_v}\sum_{j=1}^{n_h}h_j w_{ij} v_i$

联合概率分布:

P θ (v, h) = - E θ ( v , h ) \sum v , h - E θ ( v , h ) = - E θ ( v , h ) Z θ

$P_{\theta}(v,h)=\frac{-E_{\theta}(v,h)}{\sum_{v,h}-E_{\theta}(v,h)}=\frac{-E_{\theta}(v,h)}{Z_{\theta}}$

$Z_{\theta}$ 为归一化因子
边缘概率分布：

P θ (v) = \sum h P θ (v, h) = \sum h - E θ ( v , h ) Z θ

$P_{\theta}(v)=\sum_h{P_{\theta}(v,h)} = \frac{\sum_h{-E_{\theta}(v,h)}}{Z_{\theta}}$

P θ (h) = \sum v P θ (v, h) = \sum v - E θ ( v , h ) Z θ

$P_{\theta}(h)=\sum_v{P_{\theta}(v,h)} = \frac{\sum_v{-E_{\theta}(v,h)}}{Z_{\theta}}$
当给定可见层的状态时，隐藏层上的某一个神经元被激活的概率，即

P(hk=1|v) P ( h k = 1 | v ) $P(h_k=1|v)$
当给定了隐藏层的状态时，可见层上的某一神经元被激活的概率，即

P(vk=1|h) P ( v k = 1 | h ) $P(v_k=1|h)$

h h $h$ 中去除了分量

h_{k}

$h_k$ 后的向量

h - k = (h 1, h 2, . . ., h k - 1, h k + 1, . . ., h n h) T

$h_{-k}=(h_1,h2,...,h_{k-1},h_{k+1},...,h_{n_h})^T$

E θ (v, h) = - \sum i = 1 n v a i v i - \sum j = 1 n h b j h j - \sum i = 1 n v \sum j = 1 n h h j w i j v i

$E_{\theta}(v,h)=-\sum_{i=1}^{n_v}a_i v_i-\sum_{j=1}^{n_h}b_j h_j-\sum_{i=1}^{n_v}\sum_{j=1}^{n_h}h_j w_{ij} v_i$

= - β (v, h - k) - h k α k (v)

$=-\beta (v,h_{-k})-h_k \alpha_k (v)$

α k (v) = b k + \sum i = 1 n v w k i v i

$\alpha_k(v)=b_k+\sum_{i=1}^{n_v}w_{ki}v_i$

P (h k = 1 | v) = 1 1 + e - α k ( v )

$P(h_k=1|v) =\frac{1}{1+e^{-\alpha_k(v)}}$

= S i g m o i d (α k (v))

$=Sigmoid(\alpha_k(v))$

= S i g m o i d (b k + \sum i = 1 n v w k i v i)

$=Sigmoid(b_k+\sum_{i=1}^{n_v}w_{ki}v_i)$
同理，可以求得当给定了隐藏层的状态时，可见层上的某一神经元被激活的概率

P (v k = 1 | h) = 1 1 + e - α k ( h )

$P(v_k=1|h) =\frac{1}{1+e^{-\alpha_k(h)}}$

= S i g m o i d (α k (h))

$=Sigmoid(\alpha_k(h))$

= S i g m o i d (a k + \sum j = 1 n h w k j h j)

$=Sigmoid(a_k+\sum_{j=1}^{n_h}w_{kj}h_j)$
对于RBM模型，其参数主要是可见层和隐藏层之间的权重，可见层的偏置以及隐藏层的偏置，即θ=(W,a,b)，对于给定的训练样本，通过训练得到参数θ，使得在该参数下，由RBM表示的概率分布尽可能与训练数据相符合
设训练集