RBM的理解

最新推荐文章于 2024-07-11 23:07:02 发布

于建民

最新推荐文章于 2024-07-11 23:07:02 发布

阅读量7.5k

点赞数 3

分类专栏：技术博客文章标签： RBM Gibbs采样 CD-Learn MRF与MC DBN

本文链接：https://blog.csdn.net/yujianmin1990/article/details/76723999

版权

本文介绍了受限玻尔兹曼机（RBM）的基础知识，包括其目标、图结构、马尔科夫随机场（MRF）、Gibbs分布和RBM的关系。通过最大似然和梯度下降法优化模型参数，利用Gibbs采样进行样本生成。此外，文章还讨论了Gibbs采样在有限步长下的应用及其在实际RBM实现中的挑战。

摘要由CSDN通过智能技术生成

前言

　　对RBM(Restricted Boltzmann Machine)的理解进行简单的总结。
　　主要涉及RBM的图结构，为什么场能E(v,h)要如此定义，优化的思路到底是怎么来的，MRF与MC在优化时起到怎么样的作用，CD的意义，RBM的实现。

RBM

　　RBM是个两层的网络，层间连接，而层内无连接（restricted的由来）。可以理解为是个表示了概率分布的参数模型（概率图模型），也可以认为是个神经网络。基本结构如下：
　　

RBM的目标

　　BM是层内也连接的RBM，最终状态是能够学习得到训练集的分布。RBM对层内的限制是为了减少计算困难，并提供条件独立的基本结构。

图、MRF、Gibbs分布、RBM

　　为了能够简洁地描述RBM所表示的分布，对节点状态之间的依赖关系作以下假设，节点状态与其他节点状态条件独立与该节点的近邻节点状态（MRF markov random field）。然后，可以证明RBM结构下的MRF的联合分布可分解为Gibbs分布。简直好的不要不要的~
　　1）RBM的图结构
　　如上图， $G=(V,E)$ ，对每个节点 $v$ ，节点状态 $X_v$ 都可以表示为随机变量。
　　2）图G为MRF 与图联合分布为Gibbs分布的关系–>等价：
　　图的随机变量条件独立与图的联合分布可分解是等价的，MRF的联合分布可以被分解[32, 29](Hammersley-Clifford Theorem)。（分解的好处，就是方便表示和计算啊）
　　无向图G为MFR：
　　

　　无向图G联合分布可分解：
　　这里写图片描述

　　上述两个定义是等价的（有兴趣的童鞋一定要看看等价关系的证明 [2]，很妙~），因此，对于RBM满足MRF条件，则其联合概率分布可以分解为

p(X)=1Z∏c∈CGϕc(Xc) $p(X)=\frac{1}{Z} \prod_{c \in C_G} \phi_c(X_c)$ 。
　　 3）RBM的联合分布
　　通过definiton2可以看到，对定义在图G的极大团集上的正值函数

ϕ $\phi$ ，都可以表示成Gibbs分布的形式。那么在RBM中，我们指定一个函数定义

ϕ(xi,j)=p(vi,vj)=ewi,jhivj+cihi+bjvj $\phi(x_{i,j})=p(v_i, v_j)=e^{w_{i,j}h_iv_j + c_i h_i + b_j v_j}$ ，其中

{ i,j}=c,且c∈{ maxmial−clique}G $\{ i,j \} =c,且 c \in \left \{maxmial-clique \right \}_G$ ，该函数定义在所有极大团上且

ϕ>0 $\phi>0$ ，进一步得到RBM的联合分布
　　

p (v, h) = 1 Z \prod v i, h j \in {c} ϕ (v i, v j) = 1 Z \prod v i, h j \in {c} e w i, j h i v j + c i h i + b j v j = 1 Z e \sum i = [1, n], j = [1, m] w i, j h i v j + c i h i + b j v j

$p(v, h)=\frac{1}{Z} \prod_{v_i, h_j \in \{c\}} \phi(v_i, v_j)=\frac{1}{Z} \prod_{v_i, h_j \in \{c\}} e^{w_{i,j}h_iv_j + c_i h_i + b_j v_j}=\frac{1}{Z}e^{\sum_{i=[1,n],j=[1,m]}w_{i,j}h_iv_j + c_i h_i + b_j v_j}$
　　化简为向量形式：

p (v, h) = 1 Z e h w v + c h + b v = 1 Z e - E (v, h)

$p(v,h)=\frac{1}{Z}e^{hwv+ch+bv}=\frac{1}{Z}e^{-E(v,h)}$
　　

其中Z=∑v,he−E(v,h)，E(v,h)=−hwv−ch−bv $其中Z=\sum_{v,h}e^{-E(v,h)}，E(v,h)=-hwv-ch-bv$
　　OK，现在弄明白 RBM的联合概率分布是怎么来的了~
　　补充：也可以从另外的方向化简，结果一样，如下。
　　

p(x)=1Z∏ψ(xc)=1Ze∑lnψ(xc)=p(v,h)=1Ze−E(v,h)=1ZehWv+bv+hc $p(x) = \frac{1}{Z} \prod \psi(x_c)=\frac{1}{Z} e^{\sum \ln \psi(x_c) }=p(v,h)=\frac{1}{Z}e^{-E(v,h)}=\frac{1}{Z}e^{hWv + bv + hc}$

最大似然与梯度下降

　　已知分布形式，剩下的就是根据输入数据调参了，最为常见的就是最大似然方法了。
　　但是，我们对RBM的边缘分布 $p(v)$ 更感兴趣， $p(v) = \sum_h p(v,h)= \frac{1}{Z} \sum_h e^{-E(v,h)}$ 。下面对其采用最大似然的思路尝试优化。
　　最大化 $L(\theta | Data)$ ，从而求得最优参数。