一、概述
Sigmoid信念网络(Sigmoid Belief Network,SBN)是一种有向图模型,这里的信念网络指的就是贝叶斯网络,也就是有向图模型,sigmoid指的就是sigmoid函数:
σ ( x ) = 1 1 + e x p ( − x ) \sigma (x)=\frac{1}{1+exp(-x)} σ(x)=1+exp(−x)1
在Sigmoid信念网络中同样有两观测变量和隐变量,不过他们的连接是有向的,并且节点全部服从0-1分布,并且概率值与sigmoid函数有关。Sigmoid信念网络的概率图如下所示:
Sigmoid信念网络最常见的结构时分成许多层的结构。有向图天然地具有比较简单的因子分解,变量之间的关系很清晰,因而Sigmoid信念网络的采样比较简单,从根节点开始采样,由于tail-to-tail的结构,其子节点是相互独立的,最终直至采样到可见层。类似神经网络可以在多于一个隐藏层的情况下可以逼近任意连续函数,Sigmoid信念网络具备逼近任意离散函数的能力。
Sigmoid信念网络的随机变量 s s s分为隐变量 h h h和观测变量 v v v:
s = ( s 1 s 2 ⋯ s p ) T h = ( h 1 h 2 ⋯ h m ) T v = ( v 1 v 2 ⋯ v n ) T p = m + n s=\begin{pmatrix} s_{1} & s_{2} & \cdots & s_{p} \end{pmatrix}^{T}\\ h=\begin{pmatrix} h_{1} & h_{2} & \cdots & h_{m} \end{pmatrix}^{T}\\ v=\begin{pmatrix} v_{1} & v_{2} & \cdots & v_{n} \end{pmatrix}^{T}\\ p=m+n s=(s1s2⋯sp)Th=(h1h2⋯hm)Tv=(v1v2⋯vn)Tp=m+n
Sigmoid信念网络中每个变量只受其祖先节点影响,并且取值为 0 0 0或 1 1 1,对于节点 s i s_i si来说,其取值为 1 1 1的概率为:
P ( s i = 1 ∣ s j : j < i ) = σ ( ∑ j < i w j i s j ) P(s_{i}=1|s_{j}:j< i)=\sigma (\sum_{j<i}w_{ji}s_{j}) P(si=1∣sj:j<i)=σ(j<i∑wjisj)
这里的 s j s_j sj表示概率图中 s i s_i si的祖先节点, w j i w_{ji} wji表示参数,注意这里为简便起见没有写出偏置,我们可以认为 w j i w_{ji} wji已经包含了偏置了。另外取值为 0 0 0的概率为:
P ( s i = 0 ∣ s j : j < i ) = 1 − P ( s i = 1 ∣ s j : j < i ) = 1 − σ ( ∑ j < i w j i s j ) = σ ( − ∑ j < i w j i s j ) P(s_{i}=0|s_{j}:j< i)=1-P(s_{i}=1|s_{j}:j< i)\\ =1-\sigma (\sum_{j<i}w_{ji}s_{j})\\ =\sigma (-\sum_{j<i}w_{ji}s_{j}) P(si=0∣sj:j<i)=1−P(si=1∣sj:j<i)=1−σ(j<i∑wjisj)=σ(−j<i∑wjisj)
这里用到了sigmoid函数的性质:
σ ( − x ) = 1 − σ ( x ) \sigma (-x)=1-\sigma (x) σ(−x)=1−σ(x)
综合一下上面两个概率值,可以将节点 s i s_i si的概率写为:
P ( s i ∣ s j : j < i ) = σ ( s i ∗ ∑ j < i w j i s j ) , 其 中 s i ∗ = 2 s i − 1 P(s_{i}|s_{j}:j< i)=\sigma (s_{i}^{*}\sum_{j<i}w_{ji}s_{j}),\; \; 其中s_{i}^{*}=2s_{i}-1 P(si∣sj:j<i)=σ(si∗j<i∑wjisj),其中si∗=2si−1
那么最终 s s s的概率就可以写成:
P ( s ) = ∏ i = 1 p P ( s i ∣ s j : j < i ) P(s)=\prod _{i=1}^{p}P(s_{i}|s_{j}:j< i) P(s)=i=1∏pP(si∣sj:j<i)
尽管有向图模型相比无向图模型具备一些优势,但是在求解Sigmoid信念网络的后验 P ( h ∣ v ) P(h|v) P(h∣v)时我们仍然遇到了一些困难,主要原因还是explain away问题,也就是head-to-head结构带来的问题。从概率图中可以看出,由于head-to-head结构的存在,在给定观测变量 v v v时,隐变量之间不是相互独立的,因此求解 P ( h ∣ v ) P(h|v) P(h∣v)是相当困难的。那么能不能应用采样的方法呢?事实上在模型相当复杂的情况下,由于维度过高,采样的方法也是相当困难的。下一节我们就来看一下直接应用极大似然估计的方法会遇到什么问题,或者说看一下极大似然估计与后验有什么样的关系。
二、log似然的梯度与后验的关系
假设数据集为 V V V,那么模型的 l o g log log似然为:
l o g l i k e l i h o o d : ∑ v ∈ V l o g P ( v ) \mathrm{log\; likelihood}:\sum _{v\in V}logP(v) loglikelihood:v∈V∑logP(v)
对于每一个 P ( v ) P(v) P(v),对一个特定的参数 w n m w_{nm} wnm求导:
∂ l o g P ( v ) ∂ w n m = 1 P ( v ) ∂ P ( v ) ∂ w n m = 1 P ( v ) ∂ ∑ h P ( h , v ) ∂ w n m = ∑ h 1 P ( v ) ∂ P ( h , v ) ∂ w n m = ∑ h P ( h ∣ v ) P ( h , v ) ∂ P ( h , v ) ∂ w n m = ∑ h P ( h ∣ v ) 1 P ( s ) ∂ P ( s ) ∂ w n m \frac{\partial logP(v)}{\partial w_{nm}}=\frac{1}{P(v)}\frac{\partial P(v)}{\partial w_{nm}}\\ =\frac{1}{P(v)}\frac{\partial \sum _{h}P(h,v)}{\partial w_{nm}}\\ =\sum _{h}{\color{Red}{\frac{1}{P(v)}}}\frac{\partial P(h,v)}{\partial w_{nm}}\\ =\sum _{h}{\color{Red}{\frac{P(h|v)}{P(h,v)}}}\frac{\partial P(h,v)}{\partial w_{nm}}\\ =\sum _{h}P(h|v){\color{Blue}{\frac{1}{P(s)}\frac{\partial P(s)}{\partial w_{nm}}}} ∂wnm∂logP(v)=P(v)1∂wnm∂P(v)=P(v)1∂wnm∂∑hP(h,v)=h∑P(v)1∂wnm∂P(h,v)=h∑P(h,v)P(h∣v)∂wnm∂P(h,v)=h∑P(h∣v)P(s)1∂wnm∂P(s)
对于上面式子中蓝色的部分有:
1 P ( s ) ∂ P ( s ) ∂ w n m = 1 ∏ i = 1 p P ( s i ∣ s j : j < i ) ∂ ∏ i = 1 p P ( s i ∣ s j : j < i ) ∂ w n m = 1 P ( s m ∣ s k : k < m ) ∏ i ≠ m P ( s i ∣ s j : j < i ) ∂ P ( s m ∣ s k : k < m ) ∏ i ≠ m P ( s i ∣ s j : j < i ) ∂ w n m = 1 P ( s m ∣ s k : k < m ) ∏ i ≠ m P ( s i ∣ s j : j < i ) ∏ i ≠ m P ( s i ∣ s j : j < i ) ∂ P ( s m ∣ s k : k < m ) ∂ w n m = 1 P ( s m ∣ s k : k < m ) ∂ P ( s m ∣ s k : k < m ) ∂ w n m = 1 σ ( s m ∗ ∑ k < m w k m s k ) ∂ σ ( s m ∗ ∑ k < m w k m s k ) ∂ w n m = 1 σ ( s m ∗ ∑ k < m w k m s k ) σ ( s m ∗ ∑ k < m w k m s k ) σ ( − s m ∗ ∑ k < m w k m s k ) s m ∗ s n = σ ( − s m ∗ ∑ k < m w k m s k ) s m ∗ s n \frac{1}{P(s)}\frac{\partial P(s)}{\partial w_{nm}}=\frac{1}{\prod _{i=1}^{p}P(s_{i}|s_{j}:j< i)}\frac{\partial \prod _{i=1}^{p}P(s_{i}|s_{j}:j< i)}{\partial w_{nm}}\\ =\frac{1}{P(s_{m}|s_{k}:k< m)\prod _{i\neq m}P(s_{i}|s_{j}:j< i)}\frac{\partial P(s_{m}|s_{k}:k< m)\prod _{i\neq m}P(s_{i}|s_{j}:j< i)}{\partial w_{nm}}\\ =\frac{1}{P(s_{m}|s_{k}:k< m){\color{Red}{\prod _{i\neq m}P(s_{i}|s_{j}:j< i)}}}\frac{{\color{Red}{\prod _{i\neq m}P(s_{i}|s_{j}:j< i)}}\partial P(s_{m}|s_{k}:k< m)}{\partial w_{nm}}\\ =\frac{1}{P(s_{m}|s_{k}:k< m)}\frac{\partial P(s_{m}|s_{k}:k< m)}{\partial w_{nm}}\\ =\frac{1}{\sigma (s_{m}^{*}\sum_{k<m}w_{km}s_{k})}{\color{Blue}{\frac{\partial \sigma (s_{m}^{*}\sum_{k<m}w_{km}s_{k})}{\partial w_{nm}}}}\\ =\frac{1}{\sigma (s_{m}^{*}\sum_{k<m}w_{km}s_{k})}{\color{Blue}{\sigma (s_{m}^{*}\sum_{k<m}w_{km}s_{k})\sigma (-s_{m}^{*}\sum_{k<m}w_{km}s_{k})s_{m}^{*}s_{n}}}\\ =\sigma (-s_{m}^{*}\sum_{k<m}w_{km}s_{k})s_{m}^{*}s_{n} P(s)1∂wnm∂P(s)=∏i=1pP(si∣sj:j<i)1∂wnm∂∏i=1pP(si∣sj:j<i)=P(sm∣sk:k<m)∏i=mP(si∣sj:j<i)1∂wnm∂P(sm∣sk:k<m)∏i=mP(si∣sj:j<i)=P(sm∣sk:k<m)∏i=mP(si∣sj:j<i)1∂wnm∏i=mP(si∣sj:j<i)∂P(sm∣sk:k<m)=P(sm∣sk:k<m)1∂wnm∂P(sm∣sk:k<m)=σ(sm∗∑k<mwkmsk)1∂wnm∂σ(sm∗∑k<mwkmsk)=σ(sm∗∑k<mwkmsk)1σ(sm∗k<m∑wkmsk)σ(−sm∗k<m∑wkmsk)sm∗sn=σ(−sm∗k<m∑wkmsk)sm∗sn
这里蓝色的部分又用到了sigmoid函数的性质:
σ ′ ( x ) = σ ( x ) σ ( − x ) \sigma ^{'}(x)=\sigma (x)\sigma (-x) σ′(x)=σ(x)σ(−x)
到此我们就可以得到 l o g log log似然对一个特定参数 w n m w_{nm} wnm的梯度:
∂ ∂ w n m ∑ v ∈ V l o g P ( v ) = ∑ v ∈ V ∂ l o g P ( v ) ∂ w n m = ∑ v ∈ V ∑ h P ( h ∣ v ) σ ( − s m ∗ ∑ k < m w k m s k ) s m ∗ s n = E ( h , v ) ∼ P ( h ∣ v ) , v ∼ P d a t a [ σ ( − s m ∗ ∑ k < m w k m s k ) s m ∗ s n ] \frac{\partial}{\partial w_{nm}}\sum _{v\in V}logP(v)\\ =\sum _{v\in V}\frac{\partial logP(v)}{\partial w_{nm}}\\ =\sum _{v\in V}{\color{Red}{\sum _{h}P(h|v)}}\sigma (-s_{m}^{*}\sum_{k<m}w_{km}s_{k})s_{m}^{*}s_{n}\\ =E_{(h,v)\sim P(h|v),v\sim P_{data}}\left [\sigma (-s_{m}^{*}\sum_{k<m}w_{km}s_{k})s_{m}^{*}s_{n}\right ] ∂wnm∂v∈V∑logP(v)=v∈V∑∂wnm∂logP(v)=v∈V∑h∑P(h∣v)σ(−sm∗k<m∑wkmsk)sm∗sn=E(h,v)∼P(h∣v),v∼Pdata[σ(−sm∗k<m∑wkmsk)sm∗sn]
由上式可以看出 l o g log log似然对一个特定参数 w n m w_{nm} wnm的梯度是与后验 P ( h ∣ v ) P(h|v) P(h∣v)相关的,然而从概率图中可以看出,观测变量 v v v位于最底层,且位于head-to-head结构中,也就是explain away问题,因此想要精确推断这个后验是相当困难的。Sigmoid信念网络的提出者Neal表示可以尝试MCMC的方法,然而这样的方法仅适合 s s s纬度较低的情况下,在高维情况下采样是困难的。
三、醒眠算法
- 算法
在 s s s维度过高的情况下,变量之间相互影响交织在一起,难以分解,可以尝试采用平均场理论来分解后验分布,即 q ( h ∣ v ) = ∑ i = 1 M q i q(h|v)=\sum _{i=1}^{M}q_{i} q(h∣v)=∑i=1Mqi依次求解 q 1 , q 2 , ⋯ , q M q_{1},q_{2},\cdots ,q_{M} q1,q2,⋯,qM,然后应用坐标上升的方法,这个方法我们已经在变分推断那一节讲过了。这里的问题在于对于梯度上升的方法来说,这是一个迭代的过程,而在每次迭代时都要用坐标上升的方法求解后验分布,也就是说又要嵌套一个迭代的过程,因而这种方法的主要问题在于比较耗时。
Neal在1995年提出了一种启发式算法叫做醒眠算法(Wake-Sleep Algorithm),可以近似推断这个后验。他把后验看做一个函数,而非一个分布,理论上神经网络可以近似任意一个连续函数,而sigmoid理论上可以近似任意一个离散函数,因此这属于近似推断的方法,后验分布是学习出来的。醒眠算法如下图所示,除了自上而下的连接(称为Generative Connection)以外,还假设存在自下而上的反向连接(称为Recognization Connection),参数为 R R R:
醒眠算法的算法流程为:
- Wake Phase
① Bottom-up activate neuron(获得各层样本)
② Learning Generative Connection(求解 W W W)- Sleep Phase
① Top-down activate neuron(获得各层样本)
② Learning Recognization Connection(求解 R R R)
这里的Recognization Connection同样使用sigmoid函数作为激活函数,因此每次采样都是从0-1分布中进行采样。另外,Wake Phase时使用训练数据中来初始化观测变量,而Sleep Phase时无论隐变量还是观测变量都是采样得到的,没有使用训练数据。
- 目标函数
Generative Connection可以看做对 P θ ( h , v ) P_{\theta }(h,v) Pθ(h,v)进行建模,模型参数为 θ \theta θ(也就是 W W W),而Recognization Connection可以看做对后验 Q ϕ ( h ∣ v ) Q_{\phi }(h|v) Qϕ(h∣v)进行建模,模型参数为 ϕ \phi ϕ(也就是 R R R),这里的 Q ϕ ( h ∣ v ) Q_{\phi }(h|v) Qϕ(h∣v)相当于一个对后验的近似。
对于 l o g P ( v ) log P(v) logP(v),在前面的章节(EM算法和变分推断)中我们经常使用这个式子:
l o g P ( v ) = E L B O + K L ( Q ∣ ∣ P ) 其 中 E L B O = E Q ( h ∣ v ) [ l o g P ( v , h ) Q ( h ∣ v ) ] = E Q ( h ∣ v ) [ l o g P ( v , h ) ] + H [ Q ] logP(v)=ELBO+KL(Q||P)\\ 其中ELBO=E_{Q(h|v)}\left [log\frac{P(v,h)}{Q(h|v)}\right ]\\ =E_{Q(h|v)}\left [logP(v,h)\right ]+H[Q] logP(v)=ELBO+KL(Q∣∣P)其中ELBO=EQ(h∣v)[logQ(h∣v)P(v,h)]=EQ(h∣v)[logP(v,h)]+H[Q]
在Wake Phase,我们按照以下式子求解,此时参数 ϕ \phi ϕ是固定的:
θ ^ = a r g m a x θ E Q ϕ ( h ∣ v ) [ l o g P θ ( h , v ) ] = a r g m a x θ E L B O = a r g m i n θ K L ( Q ϕ ( h ∣ v ) ∣ ∣ P θ ( h ∣ v ) ) \hat{\theta }=\underset{\theta }{argmax}\;E_{Q_{\phi }(h|v)}\left [logP_{\theta }(h,v)\right ]\\ =\underset{\theta }{argmax}\;ELBO\\ =\underset{\theta }{argmin}\;KL(Q_{\phi }(h|v)||P_{\theta }(h|v)) θ^=θargmaxEQϕ(h∣v)[logPθ(h,v)]=θargmaxELBO=θargminKL(Qϕ(h∣v)∣∣Pθ(h∣v))
在Sleep Phase,我们按照以下式子求解,此时参数 θ \theta θ是固定的:
ϕ ^ = a r g m a x ϕ E P θ ( h , v ) [ l o g Q ϕ ( h ∣ v ) ] = a r g m a x ϕ ∫ P θ ( h , v ) l o g Q ϕ ( h ∣ v ) d h = a r g m a x ϕ ∫ P θ ( v ) ⏟ 与 ϕ 无 关 P θ ( h ∣ v ) l o g Q ϕ ( h ∣ v ) d h = a r g m a x ϕ ∫ P θ ( h ∣ v ) l o g Q ϕ ( h ∣ v ) d h = a r g m a x ϕ ∫ P θ ( h ∣ v ) l o g ( Q ϕ ( h ∣ v ) P θ ( h ∣ v ) P θ ( h ∣ v ) ) d h = a r g m a x ϕ ∫ P θ ( h ∣ v ) l o g Q ϕ ( h ∣ v ) P θ ( h ∣ v ) d h + ∫ P θ ( h ∣ v ) l o g P θ ( h ∣ v ) d h ⏟ 与 ϕ 无 关 = a r g m a x ϕ ∫ P θ ( h ∣ v ) l o g Q ϕ ( h ∣ v ) P θ ( h ∣ v ) d h = a r g m i n ϕ K L ( P θ ( h ∣ v ) ∣ ∣ Q ϕ ( h ∣ v ) ) \hat{\phi }=\underset{\phi }{argmax}\; E_{P_{\theta }(h,v)}\left [logQ_{\phi }(h|v)\right ]\\ =\underset{\phi }{argmax}\int P_{\theta }(h,v)logQ_{\phi }(h|v)\mathrm{d}h\\ =\underset{\phi }{argmax}\int \underset{与\phi 无关}{\underbrace{P_{\theta }(v)}}P_{\theta }(h|v)logQ_{\phi }(h|v)\mathrm{d}h\\ =\underset{\phi }{argmax}\int P_{\theta }(h|v)logQ_{\phi }(h|v)\mathrm{d}h\\ =\underset{\phi }{argmax}\int P_{\theta }(h|v)log\left (\frac{Q_{\phi }(h|v)}{P_{\theta }(h|v)}P_{\theta }(h|v)\right )\mathrm{d}h\\ =\underset{\phi }{argmax}\int P_{\theta }(h|v)log\frac{Q_{\phi }(h|v)}{P_{\theta }(h|v)}\mathrm{d}h+\underset{与\phi 无关}{\underbrace{\int P_{\theta }(h|v)logP_{\theta }(h|v)\mathrm{d}h}}\\ =\underset{\phi }{argmax}\int P_{\theta }(h|v)log\frac{Q_{\phi }(h|v)}{P_{\theta }(h|v)}\mathrm{d}h\\ =\underset{\phi }{argmin}\; KL(P_{\theta }(h|v)||Q_{\phi }(h|v)) ϕ^=ϕargmaxEPθ(h,v)[logQϕ(h∣v)]=ϕargmax∫Pθ(h,v)logQϕ(h∣v)dh=ϕargmax∫与ϕ无关 Pθ(v)Pθ(h∣v)logQϕ(h∣v)dh=ϕargmax∫Pθ(h∣v)logQϕ(h∣v)dh=ϕargmax∫Pθ(h∣v)log(Pθ(h∣v)Qϕ(h∣v)Pθ(h∣v))dh=ϕargmax∫Pθ(h∣v)logPθ(h∣v)Qϕ(h∣v)dh+与ϕ无关 ∫Pθ(h∣v)logPθ(h∣v)dh=ϕargmax∫Pθ(h∣v)logPθ(h∣v)Qϕ(h∣v)dh=ϕargminKL(Pθ(h∣v)∣∣Qϕ(h∣v))
也就是说在醒眠两个阶段的目标函数是不一样的,两个阶段最小化的是不一样的KL散度。在Sleep Phase无论隐变量还是观测变量都是采样得到的,没有使用训练数据,而且它的目标函数也与Wake Phase不一样,因此叫做Sleep Phase。事实上,作为一种启发式算法,醒眠算法并非一种精确的算法,是不能保证收敛的,它追求的并非准确而非效率。
类比EM算法,Wake Phase相当于M步(M步求得近似后验分布以后估计参数),而Sleep Phase相当于E步(E步求解后验分布)。