28 玻尔兹曼机 Boltzmann Machine

最新推荐文章于 2024-10-09 11:29:19 发布

AI路上的小白

最新推荐文章于 2024-10-09 11:29:19 发布

阅读量1.6k

点赞数 2

分类专栏：机器学习白板推导文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/cengjing12/article/details/106760772

版权

机器学习白板推导专栏收录该内容

36 篇文章

订阅专栏

玻尔兹曼机（Boltzmann Machine）在“受限玻尔兹曼机”那一章就有了简单的描述。在那一章我们就较为详细的分析过了，由于Boltzmann machine 中的依赖关系过于复杂，它的Learning 和Inference问题基本是intractable。所以，为了简化而提出了受限玻尔兹曼机（Restricted Boltzmann Machine）。
但是，为什么又重新谈谈这个似乎不太好的模型呢？主要原因是Boltzmann Machine 是深度信念网络（DBN），前馈神经网络等网络结构的基础，大名鼎鼎的变分推断（Variational Inference）也是Hinton为求解Boltzmann machine 而提出的。

1 Introduction

Boltzmann machine 节点之间为任意连接，节点可以分为可观测变量 $v$ 和不可观测变量 $h$ 。每个节点都符合{0, 1} 的伯努利分布。Boltzmann machine 模型的概率图示意图如下所示：
在这里插入图片描述
其中， $v_{D \times 1} \in\{0,1\}^{D}, h_{P \times 1} \in\{0,1\}^{P}$ 。根据“受限玻尔兹曼" 那节的知识，可以得出，概率图的联合概率分布为：
$\left\{\begin{array}{l} P(v, h)=\frac{1}{2} \exp \{-\mathrm{E}(v, h)\} \\ \mathrm{E}(v, h)=-\left(v^{\top} \cdot W \cdot h+\frac{1}{2} v^{\top} \cdot L v+\frac{1}{2} h^{\top} \cdot J \cdot h\right) \end{array}\right. \ \ \ \ \ \ \ (1)$
其中， $L=\left[L_{i j}\right]_{D \times D}, \quad J=\left[J_{i j}\right]_{P \times P}, \quad W=\left[w_{i j}\right]_{D \times P}$ 。我相信坚持学到这里的同学们，对于机器学习的数学推导变换一定有了较好的基础。实际上矩阵的相乘就是用简单的方式来表示连加，在涉及到求导运算时，矩阵相乘来代替连加符号，可以简化推导过程。比如， $v^{\top} \cdot W \cdot h=\sum_{i=1}^{D} \sum_{j=1}^{P} v_{i} w_{i j} h_{j}$ . 而 $\frac{1}{2} v^{\top} \cdot L v$ 前面为什么光乘上 $1 / 2$ 呢? 实际上打开就知道了 $v^{\top} \cdot L v=\sum_{i=1}^{D} \sum_{j=1}^{D} v_{i} w_{i j} v_{j},$ 那么很显然 $v_{i} w_{i j} v_{j}=v_{j} w_{j i} v_{i}$ 。所以，所有的值都被加了两次，而我们的目的只翠求 $v$ 集合中的任意两个点的邦积，只需要加一次即可，当然需要乘上 $\frac{1}{2}$ 。
而这个 $\frac{1}{2}$ 又乘与不乘都没有关系，因为 $\frac{1}{2}$ 可以藏在 $L$ 里面，在 Learning 的过程中，自动的缩小 $\frac{1}{2}$ 就可以了。在此问题中，要学习的參数集合为 $\theta=\{W, L, J\}$

2 基于极大似然的梯度上升

既然是基于极大似然的梯度上升，显然离不开两个部分，极大似然函数和梯度。总所周知，极大化然估计的主要思路是，使极大似然函数最大时的参数。首先明确一下，要求的参数为 $\theta=\{W, L, J\}$ 样本與合 $v, ∣ v ∣ = D .$ 那么，似然函数为：
$\sum_{v} P(v)=\sum_{v} \sum_{h} P(v, h)$

那么对数似然函数为（实际上 $\frac{1}{D}$ 加不加对于求解没有什么关系，为了严谨起见还是加上）:
$\frac{1}{D} \sum_{v} \log P(v)$

2.1 似然导数求解

那么，下一步就是对对数似然函数求导，即为：
$\frac{\partial}{\partial \theta} \frac{1}{D} \sum_{v} \log p(v)=\frac{1}{D} \sum_{v} \frac{\partial \log p(v)}{\partial \theta} \ \ \ \ \ \ (2)$
在“直面配分函数”那章的公式（27），我们已经详细的推导了Boltzmann Distribution 的log 似然梯度，
$\frac{1}{D} \frac{\partial}{\partial \theta} \log P(v)=\frac{1}{D}\left(\sum_{h} \sum_{v} P(h, v) \frac{\partial}{\partial \theta} \mathrm{E}(h, v)-\sum_{h} P(h | v) \frac{\partial}{\partial \theta} \mathrm{E}(h, v)\right)$
我们主要研究的是对 $w$ 的求导，对其他两个参数矩阵的求导都一样，而且比 $w$ 要更简单一点，这里主要是对 $w$ 求导。小编狠下心来，系统的看了一下矩阵求导，迟早都要学的，建议大家也可以系统的看看，挺有帮助的。那么对 $w$ 参数矩阵的求导如下所示：
$\begin{aligned} \frac{\partial \log p(v)}{\partial W} &=\sum_{v} \sum_{h} p(v, h) \cdot-\left(v h^{\top}\right)-\sum_{h} p(h | v) \cdot-\left(v h^{\top}\right) \\ &=\sum_{i} p(h | v) \cdot v h^{\top}-\sum_{T} \sum_{h} p(v, h) \cdot v h^{\top} \end{aligned}$
其中， $\mathrm{E}(v, h)=-\left(v^{\top} W h+\frac{1}{2} v^{\top} L v+\frac{1}{2} h^{\top} J h\right)$ 。注意一下，这里的 $v$ 和 $h$ 矩阵的大小分别为 $\times 1$ 和 $\times 1$ 。 $v^{\top} W h$ 是一个一维的，那么对 $W_{D \times P}$ 求导，得到的也必然是一个 $\times P$ 的矩阵。那么，很简单可以得到：
$\frac{1}{D} \sum_{v} \frac{\partial \log P(v)}{\partial W}=\frac{1}{D} \sum_{v} \sum_{h} p(h | v) \cdot v h^{T}-\frac{1}{D} \sum_{v} \sum_{v} \sum_{h} P(v, h) \cdot v h^{T} \ \ \ \ \ \ \ (5)$
看到其中的 $\frac{1}{D} \sum_{v} \sum_{v} \sum_{h} P(v, h) \cdot v h^{T},$ 对 $v$ 和 $h$ 求完和以后，显然 $\sum_{v} \sum_{h} P(v, h) \cdot v h^{T}$ 是一个常数 $C$ 。所以 $\sum_{v} \sum_{v} \sum_{h} P(v, h) \cdot v h^{T}=\frac{1}{D} \sum_{v} C=\frac{1}{D} D \cdot C=\sum_{v} \sum_{h} P(v, h) \cdot v h^{T} \cdot$ 所公式(5) 可以改写为：
$\frac{1}{D} \sum_{v} \frac{\partial \log P(v)}{\partial W}=\frac{1}{D} \sum_{v} \sum_{h} P(h | v) \cdot v h^{T}-\sum_{v} \sum_{h} P(v, h) \cdot v h^{T} \ \ \ \ \ \ \ (6)$
而公式（6）可以被简写为：
$\frac{1}{D} \sum_{v} \frac{\partial \log P(v)}{\partial W}=\mathbb{E}_{P_{\text {ant }}}\left[v h^{\top}\right]-\mathbb{E}_{P_{\text {model }}}\left[v h^{\top}\right]$
其中，
$\begin{array}{l} P_{\text {data }}=P_{\text {data }}(v) \cdot P_{\text {model }}(h | v) \\ P_{\text {model }}=P_{\text {model }}(v, h) \end{array} \ \ \ \ \ (8)$
为什么这样表达呢? 实际上老师说的很模糊，我谈谈自己的理解。在 $\sum_{v} \sum_{h} P(v, h)$ 中, $P (v, h)$ 是生成模型，本身就是我们建立的模型，所以被称为 Pmodel。而在 $\sum_{v} \sum_{h} P(h | v)$ 首先从经验分布 $P (v)$ 从采样得到 $v,$ 然后利用模型分布来求解 $P (h ∣ v),$ 所以 $P_{\text {data }}=P_{\text {data }}(v) \cdot P_{\text {model }}(h | v)_{\circ}$ 采样出 $P_{\text {model }}(h | v)$ 和 $P_{\text {model }}(v)$ 就可以求解出 $P_{\text {model }}(h, v)$ 了。按照同样的方法可以求得对 ${L, J\}$ 的导数。

2.2 似然梯度下降法汇总

Boltzmann Machines 中的节点可以分为可观测变量集合 v 和不可观测变量集合 $h .$ 每个节点属于 $0 / 1$ 分布， $v_{D \times 1} \in\{0,1\}^{D}, h_{P \times 1} \in\{0,1\}^{P}$
参数集合为： $\theta=\{W, L, J\}$ 。参数矩阵的大小为： $L=\left[L_{i j}\right]_{D \times D}, J=\left[J_{i j}\right]_{P \times P}, W=\left[w_{i j}\right]_{D \times P}$
Boltzmann Distribution 的模型表示为：
$\left\{\begin{array}{l} P(v, h)=\frac{1}{2} \exp \{-\mathrm{E}(v, h)\} \\ \mathrm{E}(v, h)=-\left(v^{\top} \cdot W \cdot h+\frac{1}{2} v^{\top} \cdot L v+\frac{1}{2} h^{\top} \cdot J \cdot h\right) \end{array}\right.$
求解参数用到极大似然估计，Log-Likelihood Function 为：
$\frac{1}{D} \sum_{v} \log P(v)$
通过计算可以得到每个参数矩阵的似然梯度为：
$\left\{\begin{array}{l} \Delta W=\alpha\left(\mathbb{E}_{p_{\text {data }}}\left[v h^{\top}\right]-\mathbb{E}_{p_{\text {moaca }}}\left[v h^{\top}\right]\right) \\ \Delta L=\alpha\left(\mathbb{E}_{p_{\text {data }}}\left[v v^{\top}\right]-\mathbb{E}_{p_{\text {maadet }}}\left[v v^{\top}\right]\right) \\ \Delta J=\alpha\left(\mathbb{E}_{\text {pdata }}\left[h h^{\top}\right]-\mathbb{E}_{p_{\text {moaci }}}\left[h h^{\top}\right]\right) \end{array}\right.$
其中：
$\left\{\begin{array}{l} P_{\text {data }}=P_{\text {data }}(v) \cdot P_{\text {model }}(h | v) \\ P_{\text {model }}=P_{\text {model }}(v, h) \end{array}\right. \ \ \ \ \ (12)$

2.3 小结

通过上述的求解发现，梯度的统计量只和 $v, h$ 相关，只不过分布不一样而已。RBM 也是一种特殊的Boltzmann Machines，RBM 的求解比较的简单。在“直面配分函数”那一章中可以看到，RBM在化简完毕后， $P_{data} = P_{data}(v)$ 不需要考虑 $P_{model} (h|v)$ ，这样计算起来就非常简单，梯度在理论上很干净。在前馈神经网络中Gradient 需要使用链式求导法则，计算起来非常的复杂。而这里就不一样，只要解决了后验 $P_{model} (h|v)$ 就可以了。那么，下一个重点就是如何从后验 $P_{model} (h|v)$ 中进行采样。

3 基于MCMC 的似然梯度下降

3.1 MCMC 似然梯度求解总述

在第二小节中，我们已经讲到了，使用梯度上升法来使log 似然函数达到最大，从而求解对应的最优参数。参数更新公式为：

$\begin{array}{l} \qquad \theta^{(t+1)}=\theta^{(t)}+\Delta \theta \end{array}$
其中， $△ θ =$ { $△ W, △ L, △ J$ }。以 $△ W$ 为例， $△ W$ 是一个矩阵 $W = [△w_{ij} ]$ 。其中，
$\begin{array}{l} \Delta w_{i j}=\alpha[\underbrace{\mathbb{E}_{P_{\text {Pata }}}\left[v_{i} h_{j}\right]}_{\text {Postive phase }}-\underbrace{\mathbb{E}_{P_{\text {modati }}\left[v_{i} h_{j}\right]}}_{\text {Negative phase }}] \end{array}$
这个 Postive 和 Negative phase 巾说法，我们在“直面配分所数”那章有详细的描述。那么，现在的难点就是 $v_{i} h_{j}$ 从何而来。回忆一下，在 RBM 中， $P (h ∣ v)$ 是可以直接求出来的。
$v)=\prod_{l=1}^{m} P\left(h_{l} | v\right)=\left(\sigma\left(\sum_{j=1}^{n} w_{l j} v_{i}+\beta_{l}\right)\right)^{k}\left(1-\sigma\left(\sum_{j=1}^{n} w_{l j} v_{i}+\beta_{l}\right)\right)^{m-k}$
而 $P_{\text {data }}$ 直接从样本中进行采样就可ル了，而 $P_{\text {model }}(v, h)$ 为：
$\begin{aligned} P(h, v) h_{i} v_{j} &=\sum_{h} \sum_{v} P(v) P(h | v) h_{i} v_{j} \\ &=\sum_{v} P(v) \sum_{h} P(h | v) h_{i} v_{j} \\ &=\frac{1}{Z} \exp \left(\alpha^{T} v+\sum_{i=1}^{m} \log \left(1+\exp \left(w_{i} v+\beta_{i}\right)\right)\right) \sigma\left(\sum_{j=1}^{n} w_{i j} v_{i}+\beta_{i}\right) v_{j} \end{aligned} \ \ \ \ \ \ (16)$
这个分布过于复杂，当时采用的是基于对于散度的 Gibbs 采样来解决。而在 Boltzmann Machines 中,Postive phase 和 Negative phase 都是 Intractable。所以，Hinton 捉出了用 MCMC 来对 $P (h ∣ v)$ 进行采样。

这里再明确一下逻辑，在求解 $△ W$ 中，主要是解决三个部分， $P_{data}(v), P_{model} (h|v), P_{model} (v, h)$ ，其中 $P_{\text {model }}(v, h)=P_{\text {model }}(h | v) \cdot P_{\text {model }}(v) .$ 所以, 而 $P_{\text {data }}(v)$ 和 $P_{\text {modol }}(v)$ 相对比较简单，所以难点在于 $P_{model} ( h | v)$ 的求解。而在RBM 中Pmodel (h|v) 比较容易求解，而 $P_{model} (v, h)$ 过于复杂，所以要采用MCMC 来解决。而在Boltzmann Machines 中，由于关系过于复杂，没有办法分解，甚至最大团分解都没有用，因为最大团就是自己，那么连 $P_{model} (h|v)$ 都求不出来，那么Postive phase 和Negative phase 都是Intractable。

很幸运的是，通过推导，可以街到：
$\ i D L i k v k ) P ( h j = 1 ∣ v , h − j ) = σ ( ∑ i = 1 D w i j v i + ∑ m = 1 p J j m h n ) （ 17 ） \begin{array}{l} P\left(v_{i}=1 | h, v_{-i}\right)=\sigma\left(\sum_{j=1}^{P} w_{i j} h_{j}+\sum_{k=1 \backslash i}^{D} L_{i k} v_{k}\right) \\ P\left(h_{j}=1 | v, h_{-j}\right)=\sigma\left(\sum_{i=1}^{D} w_{i j} v_{i}+\sum_{m=1}^{p} J_{j m} h_{n}\right) \end{array} \ \ \ \ \ （17）$

解释一下，这两个公式是什么意思。公式表达的是，在已知一个节点以外的所有的点的条件下，这个节点的条件概率是可求的。其中 $1$ \ $i$ 表达的意思是 $1 \sim D$ 但不包括 $i$ 的所有节点。
为什么说很幸运呢？因为真实的后验是求不出来的，但是MCMC 提供了一种一维一维的采样的方法（Gibbs 采样法）。而每一个维的概率分布可以求出来，那么Gibbs 采样就可以很愉快的被使用了。而且，这个结论同时也可以在RBM 中使用，下面我们来举个例子，假设有一个RBM，如下图所示：
在这里插入图片描述
由于在已知 $v$ 的情况下， $h$ 中的节点都是相互独立的，所以:
$v)=\prod_{j=1}^{3} p\left(h_{j} | v\right) \ \ \ \ (18)$ 同理可得：
$P\left(h_{j}=1 | v\right)=P\left(h_{j}=1 | v, h_{-j}\right)=\sigma\left(\sum_{i=1}^{D} w_{i j} v_{i}+0\right) \ \ \ \ (19)$
为什么 $\ j p J j m h n = 0 \sum_{m=1 \backslash j}^{p} J_{j m} h_{n}=0$ 呢? 因为， $h$ 节点内部都是相互独立的，没有边，所有都是 $0 .$ 实际上在 RBM 那一章，后验是花了较大的功夫去求的。而使用公式 (17) 给出的结论，我们可以较为简单的写出。可以看到，由于 RBM 的特殊性质， $h$ 集合之间相互独立，分解起来非常简单。在 BM 就没有这
么好了，量然每一维可以求出来，由于无法分解，求解起来根本就不可能。

3.2 条件概率推导

在3.1 节中，给出了两个条件概率分布：
$\ i D L i k v k ) P ( h j = 1 ∣ v , h − j ) = σ ( ∑ i = 1 D w i j v i + ∑ m = 1 p J j m h n ) ( 20 ) \begin{array}{l} P\left(v_{i}=1 | h, v_{-i}\right)=\sigma\left(\sum_{j=1}^{P} w_{i j} h_{j}+\sum_{k=1 \backslash i}^{D} L_{i k} v_{k}\right) \\ P\left(h_{j}=1 | v, h_{-j}\right)=\sigma\left(\sum_{i=1}^{D} w_{i j} v_{i}+\sum_{m=1}^{p} J_{j m} h_{n}\right) \end{array} \ \ \ \ \ \ (20)$

这一节，就来详细的推导一下：
$\begin{aligned} P\left(v_{i} | h, v_{-i}\right) &=\frac{P(v, h)}{P\left(h, v_{-i}\right)}=\frac{\frac{1}{Z} \exp \{-\mathbb{E}(v, h)\}}{\sum_{v_{i}} \frac{1}{Z} \exp (-\mathbb{E}(v, h)\}}=\frac{\exp \left\{v^{\top} W h+\frac{1}{2} v^{\top} L v+\frac{1}{2} h^{\top} J h\right\}}{\sum_{v_{i}} \exp \left\{v^{\top} W h+\frac{1}{2} v^{\top} L v+\frac{1}{2} h^{\top} J h\right\}} \\ &=\frac{\exp \left\{v^{\top} W h+\frac{1}{2} v^{\top} L v\right\} \cdot \exp \left\{\frac{1}{2} h^{\top} J h\right\}}{\exp \left\{\frac{1}{2} h^{\top} J h\right\} \cdot \sum_{v_{i}} \exp \left\{v^{\top} W h+\frac{1}{2} v^{\top} L v\right\}} \end{aligned}$
由于 $\exp \left\{\frac{1}{2} h^{\top} J h\right\}$ 和 $v$ 没有关系，所以被单独提出来准备约掉。那么有：
$P\left(v_{i} | h, v_{-i}\right)=\frac{\exp \left\{v^{\top} W h+\frac{1}{2} v^{\top} L v\right\}}{\sum_{v_{i}} \exp \left\{v^{\top} W h+\frac{1}{2} v^{\top} L v\right\}}$

令 $v_i = 1$ 和分母部分没有关系，因为 $\sum_{v_i}$ 之后，是和 $v_i$ 无关的部分了。所以，
$P\left(v_{1}=1 | h, v_{-1}\right)=\frac{\left.\exp \left\{v^{\top} W h+\frac{1}{2} v^{\top} L v\right\}\right|_{v_{1}-1}}{\exp \left\{v^{\top} W h+\frac{1}{2} v^{\top} L v\right\}\left|v_{t}-1+\exp \left\{v^{\top} W h+\frac{1}{2} v^{\top} L v\right\}\right|_{v_{1}-0}}$
为了简化公式，我们将公式简化为
$\boldsymbol{P}\left(v_{i}=1 | \boldsymbol{h}, v_{-i}\right)=\frac{\Delta | v_{i}-1}{\Delta | v_{v}-0}+\left.\Delta\right|_{| \boldsymbol{b}_{i}-1} \ \ \ (24)$
下一步很自然的想到，将包含 $v_i$ 的项，从公式中分离，然后赋予相应的值
$\ 1 D ∑ j = 1 P v i w i j h j + ∑ j = 1 P v i w i j h j + 1 2 ( ∑ i = 1 \ i D ∑ k = 1 D v i L i k v k + v i L i 1 v i + ∑ i = 1 D v i L i 1 v i + ∑ k = 11 D v i L i k v k ) } \begin{aligned} \Delta v_{\mathrm{i}}=& \exp \left\{v^{\top} w h+\frac{1}{2} v^{\top} L v\right\}=\exp \left\{\sum_{i=1}^{D} \sum_{j=1}^{P} v_{i} w_{i j} h_{j}+\frac{1}{2} \sum_{i=1}^{D} \sum_{k=1}^{D} v_{i} L_{\hat{i} k} v_{k}\right\} \\ =& \exp \left\{\sum_{i=1 \backslash 1}^{D} \sum_{j=1}^{P} v_{i} w_{i j} h_{j}+\sum_{j=1}^{P} v_{i} w_{i j} h_{j}\right.\\ &\left.+\frac{1}{2}\left(\sum_{i=1 \backslash i}^{D} \sum_{k=1}^{D} v_{i} L_{i k} v_{k}+v_{i} L_{i 1} v_{i}+\sum_{i=1}^{D} v_{i} L_{i 1} v_{i}+\sum_{k=11}^{D} v_{i} L_{i k} v_{k}\right)\right\} \end{aligned}$
又因为 $L_{n}=0,$ 且 $L$ 矩阵是对称的，所以 $\ c D v i L i ^ i v i = ∑ k − 1 \ t D v i L i k v k . \sum_{i-1 \backslash c}^{D} v_{i} L_{\hat{i} i} v_{i}=\sum_{k-1 \backslash t}^{D} v_{i} L_{i k} v_{k} .$ 所以,
$\ i D ∑ j = 1 P v i w i j h j + ∑ j = 1 P v i w i j h j + 1 2 ( ∑ i ^ = 1 \ i D ∑ k = 1 D v i L i ^ k v k + 2 ∑ k ^ = 1 \ i D v i L i k v k ) } = exp ⁡ { ∑ i = 1 \ i D ∑ j = 1 P v i w i j h j + ∑ j = 1 P v i w i j h j + 1 2 ∑ i ^ = 1 \ i D ∑ k = 1 D v i L i ^ k v k + ∑ k ^ = 1 \ i D v i L i k v k } \begin{aligned} \Delta v_{i} &=\exp \left\{\sum_{i=1 \backslash i}^{D} \sum_{j=1}^{P} v_{i} w_{i j} h_{j}+\sum_{j=1}^{P} v_{i} w_{i j} h_{j}+\frac{1}{2}\left(\sum_{\hat{i}=1 \backslash i}^{D} \sum_{k=1}^{D} v_{i} L_{\hat{i} k} v_{k}+2 \sum_{\hat{k}=1 \backslash i}^{D} v_{i} L_{i k} v_{k}\right)\right\} \\ &=\exp \left\{\sum_{i=1 \backslash i}^{D} \sum_{j=1}^{P} v_{i} w_{i j} h_{j}+\sum_{j=1}^{P} v_{i} w_{i j} h_{j}+\frac{1}{2} \sum_{\hat{i}=1 \backslash i}^{D} \sum_{k=1}^{D} v_{i} L_{\hat{i} k} v_{k}+\sum_{\hat{k}=1 \backslash i}^{D} v_{i} L_{i k} v_{k}\right\} \end{aligned}$

其中， $\frac{1}{2} \sum_{i=1}^{D} \sum_{k=1}^{D} v_{i} L_{i k} v_{k}$ 是按这样的方式进行分解：
$\left\{\begin{array}{ll} i \neq i, k \neq i & (D-1)(D-1) \\ \hat{i}=i, k=i & 1 \\ \hat{i}=i, k \neq i & (D-1) \\ \hat{i} \neq i, k=i & (D-1) \end{array}\right. \ \ \ \ \ \ (27)$
而 $D-1)(D-1)+(D-1)+(D-1)+1=D^{2}$
那么，使用公式（26）的推导结界，可以得到：
$\ i D ∑ j = 1 p v i w i j h j + 1 2 ∑ i = 1 \ i D ∑ k = 1 D v i L i k v k } = exp ⁡ { A + B } ( 28 ) \Delta v_{i=0}=\exp \left\{\sum_{i=1 \backslash i}^{D} \sum_{j=1}^{p} v_{i} w_{i j} h_{j}+\frac{1}{2} \sum_{i=1 \backslash i}^{D} \sum_{k=1}^{D} v_{i} L_{i k} v_{k}\right\}=\exp \{A+B\} \ \ \ \ \ (28)$
其中， $\ i D ∑ j − 1 P v i w i j h j , B = 1 2 ∑ i − 1 \ i D ∑ k = 1 D v i L i k v k . A=\sum_{i-1 \backslash i}^{D} \sum_{j-1}^{P} v_{i} w_{i j} h_{j}, B=\frac{1}{2} \sum_{i-1 \backslash i}^{D} \sum_{k=1}^{D} v_{i} L_{i k} v_{k} .$ 同理可得
$\ d D L i k v k } ( 29 ) \Delta v_{i=1}=\exp \left\{A+B+\sum_{j=1}^{P} w_{i j} h_{j}+\sum_{k=1 \backslash \mathfrak{d}}^{D} L_{i k} v_{k}\right\} \ \ \ \ \ (29)$
所以，将公式（28）和（29）的结果代入到公式（24）中可得：
$\ i D L i k v k } exp ⁡ { ∑ j = 1 P w i j h j + ∑ k = 1 D L i k v k } + 1 = σ ( ∑ j = 1 P w i j h j + ∑ k = 1 \ i D L i k v k ) ( 30 ) \begin{aligned} P\left(v_{i}=1 | h, v_{-i}\right) &=\frac{\left.\Delta\right|_{v_{i}=1}}{\left.\Delta\right|_{v_{i}=0}+\left.\Delta\right|_{v_{i}=1}} \\ &=\frac{\exp \left\{A+B+\sum_{j=1}^{P} w_{i j} h_{j}+\sum_{k=1}^{D} L_{i} L_{i k} v_{k}\right\}}{\exp \left\{A+B+| \sum_{j=1}^{P} w_{i j} h_{j}+\sum_{k=1}^{D} L_{i k} v_{k}\right\}+\exp \{A+B\}} \\ &=\frac{\exp \left\{\sum_{j=1}^{P} w_{i j} h_{j}+\sum_{k=1 \backslash i}^{D} L_{i k} v_{k}\right\}}{\exp \left\{\sum_{j=1}^{P} w_{i j} h_{j}+\sum_{k=1}^{D} L_{i k} v_{k}\right\}+1} \\ &=\sigma\left(\sum_{j=1}^{P} w_{i j} h_{j}+\sum_{k=1 \backslash i}^{D} L_{i k} v_{k}\right) \end{aligned} \ \ \ \ (30)$
而 $\ j p J j m h n ) P\left(h_{j}=1 | v, h_{-j}\right)=\sigma\left(\sum_{i=1}^{D} w_{i j} v_{i}+\sum_{m=1 \backslash j}^{p} J_{j m} h_{n}\right)$ 的计算采用的也是同样的思路。

3.3 小结

本小节主要讲述了基于MCMC 的似然梯度下降法，不同于RBM，在BM 中后验分布 $P (h ∣ v)$ 过于复杂，所以采用MCMC 采样的思路来求解。幸运的是，P(h|v) 的条件概率是可求的，所以，可以用Gibbs 采样。然后，给出了条件概率的详细推导。

4 变分推断法求解

我们采用的是梯度上升法，那么在每一次求解梯度的过程中，都要采样得到 $vh^⊤$ 。在采样的过程中，主要是对 $P_{model}(h|v)$ 进行采样，使用MCMC 采样的劣势大家都很清楚，无法求解大规模问题。如何求解大规模问题一直是难点，直到90 年代初，Hinton 提出了变分推断法（Variational Inference）来求 $P_{model}(h|v)$ 。

4.1 平均场理论求解

这部分的基础思想，在“近似推断”那一章有非常详细的描述。大体上说就是通过优化下界ELBO，来达到求解的效果，有兴趣的同学请回顾“近似推断”。公式近似推断中的公式（5）可得：
$\begin{aligned} \mathcal{L} &=\mathrm{ELBO}=\log P_{\theta}(v)-\mathrm{KL}\left(Q_{\phi} \| P_{\theta}\right) \\ &=\sum_{h} Q_{\phi}(h | v) \log P_{\theta}(v, h)+H\left(Q_{\phi}\right) \end{aligned}$
根据平均场理论（假设分布可以分解成几个部分之积），假定 $Q_{\phi}(h | v)=\prod_{j=1}^{P} Q_{\phi}\left(h_{j} | v\right),$ 令 $Q_{\phi}\left(h_{j}=\right.$ $v)=\phi_{j},$ \phi就可以认为是 {} 。那么推导过程如下所示：
$\begin{aligned} \hat{\phi}_{j} &=\arg \max _{\phi_{j}} \mathcal{L}=\arg \max _{\phi_{j}} \sum_{h} Q_{\phi}(h | v) \log P_{\theta}(v, h)+H\left(Q_{\phi}\right) \\ &=\arg \max _{\phi_{j}} \sum_{h} Q_{\phi}(h | v)\left[-\log Z+v^{\top} W h+\frac{1}{2} v^{\top} L v+\frac{1}{2} h^{\top} J h\right]+H\left(Q_{\phi}\right) \\ & =\arg \max _{\phi_{j}} \sum_{h} Q_{\phi}(h | v)\left[-\log Z+\frac{1}{2} v^{\top} L v\right]+\arg \max _{\phi_{j}} \sum_{h} Q_{\phi}(h | v)\left[v^{\top} W h+\frac{1}{2} h^{\top} J h\right]+H\left(Q_{\phi}\right) \end{aligned}$

其中, $\phi_{j}$ 是和 $h$ 相关的参数 $,\left[-\log Z+\frac{1}{2} v^{\top} L v+\right]$ 与 $\phi$ 没有关系, $,$ 那么 $\sum_{h} Q_{\phi}(h | v)\left[-\log Z+\frac{1}{2} v^{\top} L v+\right]$ 可以写成 $\left[-\log Z+\frac{1}{2} v^{\top} L v\right] \sum_{h} Q_{\phi}(h | v)_{\circ}$ 很显然 $\sum_{h} Q_{\phi}(h | v)=1,$ 所りん $\arg \max _{\phi_{\jmath}} \sum_{h} Q_{\phi}(h | v)\left[-\log Z+\frac{1}{2} v^{\top} L v\right]$ 和 $\phi$ 没有关系，可以约掉。化筒之后，
$\begin{aligned} \hat{\phi}_{j} &=\arg \max _{\phi_{j}} \sum_{h} Q_{\phi}(h | v)\left[v^{\top} W h+\frac{1}{2} h^{\top} J h\right]+H\left(Q_{\phi}\right) \\ &=\arg \max _{\phi_{j}} \sum_{h} Q_{\phi}(h | v) v^{\top} W h+\frac{1}{2} \sum_{h} Q_{\phi}(h | v) h^{\top} J h+H\left(Q_{\phi}\right) \\ &=\arg \max _{\phi_{j}}(1)+(2)+(3) \end{aligned} \ \ \ \ \ \ (34)$
那么，下一步工作 $h_{j}$ 分离出来。
$\begin{aligned} \mathbb{1} &=\sum_{h} Q_{\phi}(h | v) \cdot \sum_{i=1}^{D} \sum_{j=1}^{P} v_{i} w_{i j} h_{j} \\ &=\sum_{h} \prod_{j=1}^{P} Q_{\phi}\left(h_{j} | v\right) \cdot \sum_{i=1}^{D} \sum_{j=1}^{P} v_{i} w_{i j} h_{j} \end{aligned} \ \ \ \ \ (35)$
$\sum_{i=1}^{D} \sum_{j=1}^{P} v_{i} w_{i j} h_{j}$ 中一共有 $\times P$ 项，这里太复杂了，我们先挑一项来分析一下。

$\ h 2 ∏ j = 1 \ 2 P Q ϕ ( h j ^ ∣ v ) \begin{aligned} \mathbb{1} &=\sum_{h} \prod_{j=1}^{P} Q_{\phi}\left(h_{\hat{j}} | v\right) \cdot v_{1} w_{12} h_{2} \\ &=\sum_{h_{2}} Q_{\phi}\left(h_{2} | v\right) \cdot v_{1} w_{12} h_{2} \sum_{h \backslash h_{2}} \prod_{j=1 \backslash 2}^{P} Q_{\phi}\left(h_{\hat{j}} | v\right) \end{aligned}$
这里将 $\ h 2 ∏ j = 1 \ 2 P Q ϕ ( h j ∣ v ) \sum_{h \backslash h_{2}} \prod_{j=1 \backslash 2}^{P} Q_{\phi}\left(h_{j} | v\right)$ 提出了分析一下,
$\ h 2 ∏ j = 1 \ 2 P Q ϕ ( h j ^ ∣ v ) = ∑ h 1 Q ϕ ( h 1 ∣ v ) ∑ h 3 Q ϕ ( h 3 ∣ v ) ∑ h 4 Q ϕ ( h 4 ∣ v ) ⋯ ( 37 ) \sum_{h \backslash h_{2}} \prod_{j=1 \backslash 2}^{P} Q_{\phi}\left(h_{\hat{j}} | v\right)=\sum_{h_{1}} Q_{\phi}\left(h_{1} | v\right) \sum_{h_{3}} Q_{\phi}\left(h_{3} | v\right) \sum_{h_{4}} Q_{\phi}\left(h_{4} | v\right) \cdots \ \ \ \ (37)$
显然 $\sum_{h_{1}} Q_{\phi}\left(h_{1} | v\right)=\sum_{h_{9}} Q_{\phi}\left(h_{3} | v\right)=\sum_{h_{4}} Q_{\phi}\left(h_{4} | v\right)=\cdots=1_{\circ}$ 所以 $\ h 2 ∏ j ^ = 1 \ 2 P Q ϕ ( h j ^ ∣ v ) = 1 , \sum_{h \backslash h_{2}} \prod_{\hat{j}=1 \backslash 2}^{P} Q_{\phi}\left(h_{\hat{j}} | v\right)=1$
那么,
$\ h 2 ∏ j ^ = 1 \ 2 P Q ϕ ( h j ^ ∣ v ) = ∑ h 2 Q ϕ ( h 2 ∣ v ) ⋅ v 1 w 12 h 2 = Q ϕ ( h 2 = 1 ∣ v ) ⋅ v 1 w 12 × 1 + Q ϕ ( h 2 = 0 ∣ v ) ⋅ v 1 w 12 × 0 = Q ϕ ( h 2 = 1 ∣ v ) ⋅ v 1 w 12 = ϕ 2 v 1 w 12 \begin{aligned} \sum_{h_{2}} Q_{\phi}\left(h_{2} | v\right) \cdot v_{1} w_{12} h_{2} \sum_{h \backslash h_{2}} \prod_{\hat{j}=1 \backslash 2}^{P} Q_{\phi}\left(h_{\hat{j}} | v\right) &=\sum_{h_{2}} Q_{\phi}\left(h_{2} | v\right) \cdot v_{1} w_{12} h_{2} \\ &=Q_{\phi}\left(h_{2}=1 | v\right) \cdot v_{1} w_{12} \times 1+Q_{\phi}\left(h_{2}=0 | v\right) \cdot v_{1} w_{12} \times 0 \\ &=Q_{\phi}\left(h_{2}=1 | v\right) \cdot v_{1} w_{12}=\phi_{2} v_{1} w_{12} \end{aligned}$
那么，依次类推，可以得出：
$\text { (1) }=\sum_{i=1}^{D} \sum_{j}^{P} \phi_{j} v_{i} w_{i j} \ \ \ \ (39)$

而(2)的做法相对复杂一些，基本思想和 (1) 的分解，基本一致，也是要想办法将 $h_{j}$ 分解出来。那么，目标为将其中和 $h_{j}$ 相关的项分解出来：
$\sum_{j=1}^{P} \sum_{m=1}^{P} h_{j} J_{j m} h_{m}$
大体求解思路是可以分成如下四个部分：
$\left\{\begin{array}{l} \hat{j} \neq j, m \neq j \\ \hat{j}=j, m=j \\ \hat{j}=j, m \neq j \\ \hat{j} \neq j, m=j \end{array}\right. \ \ \ \ \ \ (41)$
其中， $\hat{j}=j, m=j$ 的情况下 $J_{j j}=0,$ 直接省略掉。 $\hat{j}=j, m \neq j$ 和 $\hat{j} \neq j, m=j$ 是对称的，相加起来可以抵掉 $\frac{1}{2}$ 这个系数，而 $\hat{j} \neq j, m \neq j$ 的情况与 $h_{j}$ 无关。所以：
$\ j P ϕ j ϕ m J j m ( 42 ) (2)=\sum_{j=1}^{P} \sum_{m=1 \backslash j}^{P} \phi_{j} \phi_{m} J_{j m} \ \ \ \ \ (42)$
最后一项(3) 的化简为：
$\begin{aligned} \widehat{3} &=\sum_{j=1}^{P}\left[\phi_{j} \log \frac{1}{\phi_{j}}+\left(1-\phi_{j}\right) \log \frac{1}{\left(1-\phi_{j}\right)}\right] \\ \\ &=-\sum_{j=1}^{P}\left[\phi_{j} \log \phi_{j}+\left(1-\phi_{j}\right) \log \left(1-\phi_{j}\right)\right] \end{aligned} \ \ \ \ \ (43)$
我们想得到使 ELBO 最大时对应的 $\phi_{j},$ 那么就对 $\phi_{j}$ 求偏导，可以得到：
$\left\{\begin{array}{l} \frac{\partial(\mathbb{D}}{\partial \phi_{j}}=\sum_{i=1}^{D} v_{i} w_{i j} \\ \\ \frac{\partial(\widehat{\partial})}{\partial \phi_{j}}=\sum_{m=1}^{P} \phi_{m} J_{j m} \\ \\ \frac{\partial(\widehat{3})}{\partial \phi_{j}}=-\log \frac{\phi_{j}}{1-\phi_{j}} \end{array}\right. \ \ \ \ \ (44)$
合并起来即为 $\frac{\partial[(1)+(2)+(3)]}{\partial \phi_{j}}=0$
解得：
$\ j P ϕ m J j m ) ( 45 ) \phi_{j}=\sigma\left(\sum_{i=1}^{D} v_{i} w_{i j}+\sum_{m=1 \backslash j}^{P} \phi_{m} J_{j m}\right) \ \ \ \ \ \ (45)$
观察一下 $\phi_{j}$ 的结果，里面有一个项为 $\ j P ϕ m ∘ \sum_{m=1 \backslash j}^{P} \phi_{m \circ}$ 所以，利用公式（45）求解最终结果的方法依然
比较坎坷。

首先， $\left\{\phi_{j}\right\}_{j=1}^{P}$ 都赋予一个初始值。然后依次计算 $\phi_{1}, \phi_{2}, \cdots, \phi_{P},$ 得到的结果为第一次迭代 $\left\{\phi^{(1)}\right\}$ 不断的重复这个过程，直到最后收敘为止，收敘时得到的结果 $\left\{\hat{\phi}_{j}\right\}_{j=1}^{P}$ 就是最终的答案。实际上就是求解不动点方程 - 公式（45），采用的是坐标上升法求解。利用不动点方程的求解结果，可以得到 $Q_{\phi}$
$\left\{\hat{\phi}_{j}\right\}_{j=1}^{P} \Longrightarrow Q_{\phi}$
而 $Q_{\phi}(h | v) \approx P_{\text {model }}(h | v),$ 那么，公式（12）中 $P_{\text {data }}$ 的计算基本解决了。那么，就不需要再进行采样了。而对于 Pmodel 还是用 MCMC，实际上 $P_{\text {model }}(h | v),$ 采样 $P_{\text {model }}(h, v)$ 难度就小了很多了。理论上，我们给出了一个实际可行的方法。但是，每一步正向用VI，负向用Gibbs，计算复杂度还是较大的。而有很多改进的方法，比如之前讲的用基于对比散度的Gibbs 采样，还有后来的概率对比散度，Deep Boltzmann Machines 等。

5 总结

理一下这章的逻辑思路。首先，我们描述了什么是玻尔兹曼机（Boltzmann Machines），描述了其模型表示。下一个问题，就是如何利用观测数据集来求解参数，我们介绍了基于极大似然的梯度上升，经过推导得出了似然梯度的方向。但是，似然梯度中涉及到对 $P_{model}$ 和 $P_{data}$ 的采样。那么难点就转移到了，如何从 $P_{model}$ 和 $P_{data}$ 中进行采样。通过分析，得到玻尔兹曼机求解主要的难点就是 $P_{model}(h|v)$ 很难求解。

我们和受限玻尔兹曼机的采样进行了对比，受限玻尔兹曼机中的后验 $P_{model}(h|v)$ 可以直接计算，而玻尔兹曼机中不行。所以，为了求解后验分布，介绍了MCMC 中的Gibbs 采样的思想。Gibbs 采样是一维一维的采样，那么需要满足单个节点的条件概率分布可以求出。幸运的是Boltzmann Machines中可以求出。下一步则进行了单个节点条件概率的详细推导。

MCMC 虽然提供了一个理论上的可行方法。可惜，无法解决大规模求解的问题。所以，介绍了Hinton 提出的变分推断（Variational Inference），用一个简单分布 $ϕ$ 来近似 $P_{model}(h|v)$ 。通过推导，我们得到了 $ϕ$ 的不动点方程，使用坐标上升法即可得到ϕ 的参数表达式。从而成功的求解 $P_{model}(h|v)$ 。