前言
对RBM(Restricted Boltzmann Machine)的理解进行简单的总结。
主要涉及RBM的图结构,为什么场能E(v,h)要如此定义,优化的思路到底是怎么来的,MRF与MC在优化时起到怎么样的作用,CD的意义,RBM的实现。
RBM
RBM是个两层的网络,层间连接,而层内无连接(restricted的由来)。可以理解为是个表示了概率分布的参数模型(概率图模型),也可以认为是个神经网络。基本结构如下:
RBM的目标
BM是层内也连接的RBM,最终状态是能够学习得到训练集的分布。RBM对层内的限制是为了减少计算困难,并提供条件独立的基本结构。
图、MRF、Gibbs分布、RBM
为了能够简洁地描述RBM所表示的分布,对节点状态之间的依赖关系作以下假设,节点状态与其他节点状态条件独立与该节点的近邻节点状态(MRF markov random field)。然后,可以证明RBM结构下的MRF的联合分布可分解为Gibbs分布。简直好的不要不要的~
1)RBM的图结构
如上图, G=(V,E) ,对每个节点 v ,节点状态
2)图G为MRF 与 图联合分布为Gibbs分布 的关系–>等价:
图的随机变量条件独立 与 图的联合分布可分解 是等价的,MRF的联合分布可以被分解[32, 29](Hammersley-Clifford Theorem)。(分解的好处,就是方便表示和计算啊)
无向图G为MFR:
无向图G联合分布可分解:
上述两个定义是等价的(有兴趣的童鞋一定要看看等价关系的证明 [2],很妙~),因此,对于RBM满足MRF条件,则其联合概率分布可以分解为 p(X)=1Z∏c∈CGϕc(Xc) 。
3)RBM的联合分布
通过definiton2可以看到,对定义在图G的极大团集上的正值函数 ϕ ,都可以表示成Gibbs分布的形式。那么在RBM中,我们指定一个函数定义 ϕ(xi,j)=p(vi,vj)=ewi,jhivj+cihi+bjvj ,其中 { i,j}=c,且c∈{ maxmial−clique}G ,该函数定义在所有极大团上且 ϕ>0 ,进一步得到RBM的联合分布
化简为向量形式:
其中Z=∑v,he−E(v,h),E(v,h)=−hwv−ch−bv
OK,现在弄明白 RBM的联合概率分布是怎么来的了~
补充:也可以从另外的方向化简,结果一样,如下。
p(x)=1Z∏ψ(xc)=1Ze∑lnψ(xc)=p(v,h)=1Ze−E(v,h)=1ZehWv+bv+hc
最大似然与梯度下降
已知分布形式,剩下的就是根据输入数据调参了,最为常见的就是最大似然方法了。
但是,我们对RBM的边缘分布 p(v) 更感兴趣, p(v)=∑hp(v,h)=1Z∑he−E(v,h) 。下面对其采用最大似然的思路尝试优化。
最大化 L(θ|Data) ,从而求得最优参数。