限制玻尔兹曼机（RBMs）理论详解

最新推荐文章于 2025-05-05 21:03:07 发布

原创最新推荐文章于 2025-05-05 21:03:07 发布 · 1.4w 阅读

33 ·

CC 4.0 BY-SA版权

文章标签：

#RBMs #Gibbs采样 #能量函数 #深度学习 #CD

深度学习专栏收录该内容

16 篇文章

订阅专栏

本文详细阐述了受限玻尔兹曼机（RBMs）的基础概念、结构、学习方法以及在深度学习领域的应用。从能量函数、分布函数到模型学习流程，深入解析了RBMs的核心原理，并探讨了Gibbs采样、对比学习加速训练等关键技术。通过实例和数学推导，读者能够全面掌握RBMs的工作机制及其在数据拟合和特征学习中的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、序

关于RBMs的文章已经有不少了，但是很多资料我在阅读的时候仍然对细节有一些疑惑。在查阅学习了大牛的视频、论文之后，很多问题豁然开朗，且在本文中记录下我对RBMs的粗浅了解。首先从玻尔兹曼机和限制玻尔兹曼机的结构和定义开始：

二、Boltmann Machines：

玻尔兹曼机（Boltmann Machines）的能量函数（Energy function）是：

E (x, h) = - h ⊤ W x - c ⊤ x - b ⊤ h - x ⊤ U x - h ⊤ V h

$\begin{equation} E(\textbf{x}, \textbf{h}) = -\textbf{h}^\top \textbf{W} \textbf{x} - \textbf{c}^\top \textbf{x} - \textbf{b}^\top \textbf{h} - \textbf{x}^\top \textbf{U} \textbf{x} - \textbf{h}^\top \textbf{V} \textbf{h} \end{equation}$

分布函数：

P (x, h) = e x p (- E (x, h)) / Z

$\begin{equation} P(\textbf{x}, \textbf{h}) = exp(-E(\textbf{x}, \textbf{h}))/Z \end{equation}$

其中分母Z学名叫做partition function

Z = \sum x \sum h e x p (- E (x, h))

$\begin{equation} Z = \sum_{\textbf{x}} \sum_{\textbf{h}} exp(-E(\textbf{x}, \textbf{h})) \end{equation}$

三、Restricted Boltmann Machines：

限制玻尔兹曼机（Restricted Boltmann Machines，简称RBMs）的能量函数（Energy function）是：

E (x, h) = - h ⊤ W x - c ⊤ x - b ⊤ h = - \sum j \sum k W j, k h j x k - \sum k c k x k - \sum j b j h j

$\begin{equation} \begin{split} &E(\textbf{x}, \textbf{h}) = -\textbf{h}^\top \textbf{W} \textbf{x} - \textbf{c}^\top \textbf{x} - \textbf{b}^\top \textbf{h}\\ &\;\;=-\sum_j \sum_k W_{j,k}h_j x_k - \sum_k c_k x_k - \sum_j b_j h_j\\ \end{split} \end{equation}$

分布函数：

P (x, h) = exp (- E (x, h)) / Z

$\begin{equation} P(\textbf{x}, \textbf{h}) = \exp(-E(\textbf{x}, \textbf{h}))/Z \end{equation}$
能量函数的能量越小，分布函数相应的概率就越大。

玻尔兹曼机和限制玻尔兹曼机都属于基于能量的模型（Energy-Based Models），从模型图和公式中很容易看出两者的区别：玻尔兹曼机隐含层（和可见层）处于同一层的任意两个节点之间有一条连线；而限制玻尔兹曼机同层变量之间是相互独立的。只要有足够的隐单元，限制玻尔兹曼机可以表示任意的离散分布，玻尔兹曼机的表示能力则更强一些。另一方面，限制玻尔兹曼机比玻尔兹曼机更容易训练。

四、模型学习：

训练RBMs就是学习能量函数的过程，变量中只有输入 $\textbf{x}$ 是已知的。

Free Energy：

为了后面计算公式的简洁，首先引入Free Energy这个概念：

P (x) = \sum h e - E ( x , h ) Z = e - F r e e E n e r g y ( x ) Z, Z = \sum x e - F r e e E n e r g y (x)

$\begin{equation} P(\textbf{x}) = \sum_{\textbf{h}} \frac{e^{-E(\textbf{x}, \textbf{h})}}{Z} = \frac{e^{-FreeEnergy(\textbf{x})}}{Z},\;\; Z = \sum_{\textbf{x}}e^{-FreeEnergy(\textbf{x})} \end{equation}$

F r e e E n e r g y (x) = - l o g \sum h e - E (x, h)

$\begin{equation} FreeEnergy(\textbf{x}) = -log \sum_{\textbf{h}} e^{-E(\textbf{x}, \textbf{h})} \end{equation}$

例如：如果 $h_i\in \{0,1\}$ ：

F r e e E n e r g y (x) = - l o g \sum h e - E (x, h) = - l o g \sum h e h ⊤ W x + c ⊤ x + b ⊤ h = - c ⊤ x - l o g \sum h e h ⊤ W x + b ⊤ h = - c ⊤ x - l o g \sum h e h 1 (W 1 \cdot x + b 1) \dots e h n (W n \cdot x + b n) = - c ⊤ x - \sum i l o g (1 + e W i \cdot x + b i)

$\begin{equation} \begin{split} &FreeEnergy(\textbf{x}) = -log \sum_{\textbf{h}} e^{-E(\textbf{x}, \textbf{h})}=-log \sum_{\textbf{h}} e^{\textbf{h}^\top \textbf{W} \textbf{x} + \textbf{c}^\top \textbf{x} + \textbf{b}^\top \textbf{h}}\\ &=-\textbf{c}^\top \textbf{x}-log \sum_{\textbf{h}} e^{\textbf{h}^\top \textbf{W} \textbf{x} + \textbf{b}^\top \textbf{h}} = -\textbf{c}^\top \textbf{x}-log \sum_{\textbf{h}} e^{h_1( \textbf{W}_{1\cdot} \textbf{x} + b_1)}\cdots e^{h_n( \textbf{W}_{n\cdot} \textbf{x} + b_n)}\\ &=-\textbf{c}^\top \textbf{x}- \sum_{i} log (1+e^{ \textbf{W}_{i\cdot} \textbf{x} + b_i})\\ \end{split} \end{equation}$
给定参数和

x $\textbf{x}$ 就可以很容易的计算出Free Energy的值，不依赖于隐单元

h $\textbf{h}$ 的具体取值。

梯度方法进行优化：

用梯度算法学习RBMs模型参数 $\theta$ ( $\theta$ 包括 $\textbf{W},\textbf{c},\textbf{b}$ )，目标函数是 $P(\textbf{x})$ （这里是梯度上升，因为要求的是似然的极大值）。 $P(\textbf{x})$ 取对数求偏导：

l o g P (x) = - F r e e E n e r g y (x) - l o g Z

$\begin{equation} log P(\textbf{x}) = -FreeEnergy(\textbf{x}) - log Z \end{equation}$
对数似然梯度（log-likelihood gradient）：

\partial l o g P ( x ) \partial θ = - \partial F r e e E n e r g y ( x ) \partial θ + 1 Z \sum x ~ e - F r e e E n e r g y (x ~) \partial F r e e E n e r g y ( x ~ ) \partial θ = - \partial F r e e E n e r g y ( x ) \partial θ + \sum x ~ P (x ~) \partial F r e e E n e r g y ( x ~ ) \partial θ

$\begin{equation} \begin{split} &\frac{\partial log P(\textbf{x})}{\partial \theta} = - \frac{\partial FreeEnergy(\textbf{x})}{\partial \theta} + \frac{1}{Z} \sum_{\tilde{\textbf{x}}} e^{-FreeEnergy(\tilde{\textbf{x}})} \frac{\partial FreeEnergy(\tilde{\textbf{x}})}{\partial \theta}\\ &\;\;\;\;= - \frac{\partial FreeEnergy(\textbf{x})}{\partial \theta} + \sum_{\tilde{\textbf{x}}} P(\tilde{\textbf{x}}) \frac{\partial FreeEnergy(\tilde{\textbf{x}})}{\partial \theta}\\ \end{split} \end{equation}$

∂logP(x)∂θ $\frac{\partial log P(\textbf{x})}{\partial \theta}$ 是对

∂logP(x)∂W,∂logP(x)∂c,∂logP(x)∂b $\frac{\partial log P(\textbf{x})}{\partial \textbf{W}}, \frac{\partial log P(\textbf{x})}{\partial \textbf{c}}, \frac{\partial log P(\textbf{x})}{\partial \textbf{b}}$ 的统一表示，编写代码时需要分别求偏导。求偏导都没有太大难度，其中

∂E(x,h)∂W=∂−h⊤Wx∂W=−hx⊤ $\frac{\partial E(\textbf{x}, \textbf{h})}{\partial \textbf{W}} = \frac{\partial -\textbf{h}^\top \textbf{W} \textbf{x}}{\partial \textbf{W}} = -\textbf{h}\textbf{x}^\top$ 。

很多文章里喜欢写成负对数似然梯度（negative log-likelihood gradient）的形式， $-log P(\textbf{x})$ 就应该用梯度下降方法来更新参数了：

- \partial l o g P ( x ) \partial θ = \partial F r e e E n e r g y ( x ) \partial θ - \sum x ~ P (x ~) \partial F r e e E n e r g y ( x ~ ) \partial θ

$\begin{equation} - \frac{\partial log P(\textbf{x})}{\partial \theta} = \frac{\partial FreeEnergy(\textbf{x})}{\partial \theta} - \sum_{\tilde{\textbf{x}}} P(\tilde{\textbf{x}}) \frac{\partial FreeEnergy(\tilde{\textbf{x}})}{\partial \theta} \end{equation}$

训练集上的平均负对数似然梯度等于：

E P^[\partial - l o g P ( x ) \partial θ] = E P^[\partial F r e e E n e r g y ( x ) \partial θ] - E P [\partial F r e e E n e r g y ( x ~ ) \partial θ]

$\begin{equation} E_{\hat{P}}[\frac{\partial -log P(\textbf{x})}{\partial \theta}] = E_{\hat{P}}[\frac{\partial FreeEnergy(\textbf{x})}{\partial \theta}] - E_P[\frac{\partial FreeEnergy(\tilde{\textbf{x}})}{\partial \theta}] \end{equation}$

P^ $\hat{P}$ 是训练集对应的分布，

P $P$ 是模型分布，

EP $E_P$ 表示在模型分布上求期望。（这里顺便解释一下为什么大家都喜欢负对数似然而不是直接最大化似然，其实如果你有一台可以表示任何数值的超级计算机，那么取不取对数真的没什么关系，但是现实中的计算机表示能力有限，N个训练样本似然乘积很小很小，小到计算机都无法表示了，所以最好取log，概率的和不会有这样的问题；另外，在优化理论中，优化问题的标准形式就是最小化某个目标函数，所以最好加个负号，最小化负对数似然）。

式子的第一项称为positive phrase，通过减小对应的FreeEnergy增大训练样本的概率；第二项是negative phrase，作用是增大对应的FreeEnergy来减小模型产生的样本的概率。句话不难理解，因为两项分别是往 $FreeEnergy(\textbf{x})$ 的梯度下降和 $FreeEnergy(\tilde{\textbf{x}})$ 的梯度上升方向改变。这也符合最大似然标准，在训练样本上有较大的似然而在其他样本上概率较小。从分类的角度来看，训练样本是正样本，而模型样本是负样本(Negative samples)。

把训练样本代入求均值即可得到梯度公式的第一项 $E_{\hat{P}}[\frac{\partial FreeEnergy(\textbf{x})}{\partial \theta}]$ 的值，第二项 $E_P[\frac{\partial FreeEnergy(\tilde{\textbf{x}})}{\partial \theta}]$ 计算模型分布上的期望，这就比较困难了，因为这需要取遍所有可能的 $\textbf{x}$ 的值。所以接下来我们就需要用到MCMC 采样来近似估计了。用MCMC采样得到的一组样本来近似估计整体的样本分布，梯度公式第二项在采样得到的样本上求近似期望（平均值）得到估计值。在实际中，常用Gibbs采样，Gibbs 采样是MCMC 算法的一种。用Gibbs从模型分布中采样n个样本，然后负对数似然梯度在训练集上的期望就可以近似为：

E P^[\partial - l o g P ( x ) \partial θ] \approx E P^[\partial F r e e E n e r g y ( x ) \partial θ] - 1 n \sum i = 1 n \partial F r e e E n e r g y ( x i ~ ) \partial θ

$\begin{equation} E_{\hat{P}}[\frac{\partial -log P(\textbf{x})}{\partial \theta}] \approx E_{\hat{P}}[\frac{\partial FreeEnergy(\textbf{x})}{\partial \theta}] - \frac{1}{n}\sum_{i=1}^n\frac{\partial FreeEnergy(\tilde{\textbf{x}_i})}{\partial \theta} \end{equation}$

最后，简要概括一下RBMs模型学习方法的步骤：（1）、求偏导，（2）、采样，（3）、估计负对数似然梯度，（4）、梯度下降方法更新参数。

五、Gibbs采样：

对RBMs模型来说， Gibbs主要有两个作用：一是估计negative log-likelihood gradient；二是在训练完模型之后（如DBN，DBN是由多个RBMs叠加而成的），用Gibbs进行采样，可以看到模型对数据的拟合以及网络中间隐含层的抽象效果。

在RBMs模型训练过程中，Gibbs就是用来对negative log-likelihood gradient进行估计的。Gibbs采样分两个小步对 $(\textbf{x}, \textbf{h})$ 进行采样，第一步固定 $\textbf{x}$ 对 $\textbf{h}$ 进行采样，第二步固定 $\textbf{h}$ 对 $\textbf{x}$ 进行采样，交替进行直到收敛：

x 1 \sim P^(x) h 1 \sim P (h | x 1) x 2 \sim P (x | h 1) h 2 \sim P (h | x 2) ⋮ x k + 1 \sim P (x | h k)

$\begin{equation} \begin{split} &\textbf{x}_1 \sim \hat{P}(x)\\ &\textbf{h}_1 \sim P(\textbf{h}|\textbf{x}_1)\\ &\textbf{x}_2 \sim P(\textbf{x}|\textbf{h}_1)\\ &\textbf{h}_2 \sim P(\textbf{h}|\textbf{x}_2)\\ &\;\;\;\;\;\;\;\;\;\;\vdots \\ &\textbf{x}_{k+1} \sim P(\textbf{x}|\textbf{h}_k)\\ \end{split} \end{equation}$
因为在训练过程中，训练模型分布会逐渐逼近训练样本分布，所以第一步可以从训练样本的分布

P^ $\hat{P}$ 抽取样本作为

x1 $\textbf{x}_1$ 。如果第一步直接从模型

P $P$ 中采样，Gibbs采样会迅速收敛。

例如:假设 $\textbf{h} \in \{0,1\}^H$ ,已经得到 $\textbf{x}_1$ ，需要对 $\textbf{h}_1$ 采样。 $P(\textbf{h}| \textbf{x}) = \prod_{j}p(h_j|\textbf{x})$ （注：条件分布的具体推导过程见下一小节内容）， 由于隐单元之间是相互独立的，所以可以采用block Gibbs采样，对所有的隐单元同时进行采样，加快采样收敛。分别求 $p(h_j=1|\textbf{x})$ ，如果 $p(h_j=1|\textbf{x})\ge U[0,1]$ （大于等于均匀分布的一个采样），就设置 $h_j = 1$ ，否则设置 $h_j = 0$ 。

条件分布：

Gibbs采样主要是根据条件分布迭代进行采样的，所以在采样之前要先推导出条件分布公式。

$P (h | x) = P (x, h) / \sum h' P (x, h') = e x p ( h ⊤ W x + c ⊤ x + b ⊤ h ) / Z \sum h ' e x p ( h ' ⊤ W x + c ⊤ x + b ⊤ h ' ) / Z = e x p ( h ⊤ W x + b ⊤ h ) \sum h ' e x p ( h ' ⊤ W x + b ⊤ h ' ) 分子分母同时约去 h 无关项 = e x p ( \sum h j h j W j \cdot x + b j h j ) \sum h ' e x p ( \sum h ' j h ' j W j \cdot x + b j h ' j ) W j \cdot 是 W 的第 j 行 = \prod j e x p ( h j W j \cdot x + b j h j ) \sum h ' 1 . . . \sum h ' H \prod j e x p ( h ' j W j \cdot x + b j h ' j ) = \prod j e x p ( h j W j \cdot x + b j h j ) \prod j \sum h ' j e x p ( h ' j W j \cdot x + b j h ' j ) = \prod j e x p ( h j W j \cdot x + b j h j ) \sum h ' j e x p ( h ' j W j \cdot x + b j h ' j ) = \prod j p (h j | x)$ $\begin{equation} \begin{split} &P(\textbf{h}| \textbf{x}) = P(\textbf{x}, \textbf{h})/\sum_{\textbf{h}'} P(\textbf{x}, \textbf{h}')\\ &\;\;=\frac{exp(\textbf{h}^\top \textbf{W} \textbf{x} + \textbf{c}^\top \textbf{x} + \textbf{b}^\top \textbf{h})/Z}{\sum_{\textbf{h}'} exp(\textbf{h}'^\top \textbf{W} \textbf{x} + \textbf{c}^\top \textbf{x} + \textbf{b}^\top \textbf{h}')/Z}\\ &\;\;=\frac{exp(\textbf{h}^\top \textbf{W} \textbf{x} + \textbf{b}^\top \textbf{h})}{\sum_{\textbf{h}'} exp(\textbf{h}'^\top \textbf{W} \textbf{x} + \textbf{b}^\top \textbf{h}')} \;\;\text{分子分母同时约去h无关项}\\ &\;\;=\frac{exp(\sum_{{h}_j}{h}_j W_{j\cdot} \textbf{x} + b_j {h}_j)}{\sum_{\textbf{h}'} exp(\sum_{{h'}_j}{h'}_j W_{j\cdot} \textbf{x} + b_j {h'}_j)} \;\;W_{j\cdot}\text{是W的第j行}\\ &\;\;=\frac{\prod_{j} exp({h}_j W_{j\cdot} \textbf{x} + b_j {h}_j)}{\sum_{{h'}_1}...\sum_{{h'}_H} \prod_{j} exp({h'}_j W_{j\cdot} \textbf{x} + b_j {h'}_j)} \\ &\;\;=\frac{\prod_{j} exp({h}_j W_{j\cdot} \textbf{x} + b_j {h}_j)}{\prod_{j} \sum_{{h'}_j} exp({h'}_j W_{j\cdot} \textbf{x} + b_j {h'}_j)} \\ &\;\;= \prod_{j} \frac{ exp({h}_j W_{j\cdot} \textbf{x} + b_j {h}_j)}{ \sum_{{h'}_j} exp({h'}_j W_{j\cdot} \textbf{x} + b_j {h'}_j)} \\ &\;\;= \prod_{j}p(h_j|\textbf{x})\\ \end{split} \end{equation}$

如果 $h_j \in \{0,1\}$ ，可以得到：

$p (h j = 1 | x) = e x p ( W j \cdot x + b j ) 1 + e x p ( W j \cdot x + b j ) = s i g m (W j \cdot x + b j)$ $\begin{equation} p(h_j = 1|\textbf{x}) = \frac{ exp( W_{j\cdot} \textbf{x} + b_j )}{ 1 + exp( W_{j\cdot} \textbf{x} + b_j)} = sigm(W_{j\cdot} \textbf{x} + b_j) \end{equation}$

$p (h j = 0 | x) = 1 - p (h j = 1 | x)$ $\begin{equation} p(h_j = 0|\textbf{x}) = 1 - p(h_j = 1|\textbf{x}) \end{equation}$

类似的：

$P (x | h) = \prod j e x p ( h W \cdot j x j + c j x j ) \sum x ' j e x p ( h W \cdot j x ' j + c j x ' j ) ) = \prod j p (x j | h)$ $\begin{equation} P(\textbf{x}| \textbf{h}) = \prod_{j} \frac{ exp(\textbf{h} W_{\cdot j} x_j + c_j x_j)}{ \sum_{{x'}_j} exp(\textbf{h} W_{\cdot j} {x'}_j + c_j {x'}_j))} = \prod_{j}p(x_j|\textbf{h}) \end{equation}$

如果 $x_j \in \{0,1\}$ ，可以得到：

$p (x j = 1 | h) = e x p ( h W \cdot j + c j ) 1 + e x p ( h W \cdot j + c j ) ) = s i g m (h W \cdot j + c j)$ $\begin{equation} p(x_j = 1| \textbf{h}) = \frac{ exp(\textbf{h} W_{\cdot j} + c_j )}{ 1 + exp(\textbf{h} W_{\cdot j} + c_j))} = sigm(\textbf{h} W_{\cdot j} + c_j) \end{equation}$

六、Contrastive Divergence:

Contrastive Divergence可以加快RBMs的训练速度，随机选择一个训练样本初始化 $\textbf{x}_1$ ，并且每一次迭代只用一个模型样本来估计negative log-likelihood gradient，而不是等到MCMC采样收敛后求期望。

k-step Contrastive Divergence（CD-k）：MCMC采样k步 $\textbf{x}_1,\textbf{x}_2,...,\textbf{x}_{k+1}$ ，用 $\textbf{x}_{k+1}$ 估计negative log-likelihood gradient。当k=1时，就能得到比较好的近似（DBN等pre-training k取1就够用了），k增大可以得到更好的效果。Contrastive Divergence的一种理解是在训练样本 $\textbf{x}_1$ 附近的局部区域内估计negative log-likelihood gradient。

借用一下大神Bengio的文章”Learning Deep Architectures for AI”的算法描述：

Persistent CD:

CD只在附近的局部区域取Negative Sample来估计negative log-likelihood gradient，很难取到其它极值区域的样本，Persistent CD可以在一定程度上解决这个问题。Persistent CD的思想很简单，它与CD的区别仅仅在与：用上一次迭代得到的 $\textbf{x}_{k+1}$ （即Negative Sample）作为这次迭代的初始值来初始化 $\textbf{x}_1$ 。PS：Persistent CD是2008年Tijmen发表在ICML上的文章。

七、参考资料：

[1].Youtube上Hugo Larochelle的视频讲解：https://www.youtube.com/user/hugolarochelle/videos

[2].DeepLearning tutorial：http://deeplearning.net/tutorial/rbm.html

[3].LSIA：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/DBNEquations

[4].Yoshua Bengio：Learning Deep Architectures for AI

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

AlexInML

关注关注

6
点赞

踩

33

收藏

觉得还不错? 一键收藏

0
评论

分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫

举报

举报

专栏目录

受限玻尔兹曼机(RBM)原理与代码实战案例讲解

AI天才研究院

10-02 1599

在深度学习领域，受限玻尔兹曼机（Restricted Boltzmann Machine，RBM）是一种经典的神经网络模型，它由Hinton等人于1986年提出。RBM被广泛应用于模式识别、数据挖掘、图像处理等领域，特别是在特征提取和降维方面有着显著优势。本文将深入探讨RBM的原理、实现和应用。RBM通过最大化概率分布来学习数据分布。RBM的目的是找到一个概率分布PvhP(v, h)Pvh，使得PvP(v)Pv尽可能接近数据分布PdatavP_data(v)Pda。

无监督学习 (Unsupervised Learning) 原理与代码实例讲解

AI天才研究院

09-18 1143

无监督学习 (Unsupervised Learning) 原理与代码实例讲解关键词：自然语言处理（NLP）数据挖掘分析型学习模型驱动学习数据驱动学习

参与评论您还未登录，请先登录后发表或查看评论

【人工智能】-- 受限玻尔兹曼机

考研小钻风

07-11 3020

受限玻尔兹曼机（RBM）是一种具有独特结构和强大学习能力的概率图模型。在结构上，RBM 由两层神经元组成，即可见层和隐藏层。层内神经元无连接，层间神经元全连接。这种结构简化了计算，同时也使得模型能够有效地学习数据中的特征和模式。在学习过程中，RBM 通过不断调整参数（包括权重、可见层偏置和隐藏层偏置）来优化模型。常见的学习算法如对比散度（CD）算法，通过采样和近似计算梯度来更新参数。RBM 具有多种应用，例如在数据降维方面，它能够将高维数据映射到低维的隐藏层表示；

限制玻尔兹曼机（Restricted Boltzmann Machine）学习笔记（一）

热门推荐

锐之锋芒

02-04 5万+

限制玻尔兹曼机（Restricted Boltzmann Machine）学习笔记，介绍了基本的神经神经网络和能量函数

【深度学习】实验二 玻尔兹曼机BM

最新发布

m0_73996189的博客

05-05 1085

RBM中的节点连接受到限制：可见层和隐藏层之间是全连接的，但层内节点之间无连接（即可见层节点彼此独立，隐藏层节点彼此独立）。①　标准玻尔兹曼机（BM）：标准玻尔兹曼机是一个全连接的无向图模型，如图4-1所示，其中每个节点都可以与其他节点相连。可见层和隐藏层之间的连接是双向的，但权重对称。描述了整个网络的连接情况。①　网络结构：玻尔兹曼机包含可见层（输入层）和隐藏层，层与层之间的节点是全连接的，但同层内的节点不相连。③　概率分布：网络的平衡状态服从玻尔兹曼分布，这是一种描述粒子在不同状态下的概率分布的函数。

受限波尔兹曼机

weixin_34368949的博客

05-28 169

深度神经网路已经在语音识别，图像识别等领域取得前所未有的成功。本人在多年之前也曾接触过神经网络。本系列文章主要记录自己对深度神经网络的一些学习心得。第三篇，谈谈自己对最近几年颇为流行的受限波尔兹曼网络RBM的理解。我不打算详细描述其生物学运行机理和相关的算法推导过程，因为网络上已经有太多的教程可以参考。 1. 概述前面描...

受限玻尔兹曼机二

西檬饭

07-06 597

博主falao_beiliu写的一篇非常好的文章。这里为方便自己以后速查，做个导航。原文目录：限制波尔兹曼机RBM使用方法限制波尔兹曼机RBM能量模型从能量模型到概率求解极大似然用到的抽样方法马尔科夫蒙特卡罗简介参考文献原文链接： https://blog.csdn.net/mytestmy/article/det...

玻尔兹曼机 / 受限玻尔兹曼机

lanluyug的博客

08-08 1805

玻尔兹曼机 / 受限玻尔兹曼机 是一种基于能量的模型，即能量最小化时网络模型达到理想状态。网络结构上分两层：显层用于数据的输入与输出，隐层则被理解为数据的内在表达。可见玻尔兹曼机的神经元状态都由0，1组成。受限玻尔兹曼机：数据集为，（本质上，玻尔兹曼机和受限玻尔兹曼机为自编码网络，是一种无监督学习方式），关于受限（同一层的单元互相不连接）玻尔兹曼机建立的能量函数为：基于...

受限制玻尔兹曼机RBM

travalscx的博客

09-07 227

http://baijiahao.baidu.com/s?id=1599798281463567369&wfr=spider&for=pc 应用在推荐系统上 https://www.jianshu.com/p/2e7ffe06fcdd?tdsourcetag=s_pcqq_aiomsg

R语言书籍学习01 《深度学习实践指南——基于R语言》-第七章限制玻尔兹曼机

深竹清风的博客

11-30 1316

我们淹没在信息的海洋里，但是知识却严重短缺。 ——Rutherford D.Roger 限制玻尔兹曼机是一种无监督学习模型，用来逼近样本数据的概率密度函数。限制玻尔兹曼机允许信息双向流动。另外一种角度可以把RBM看作可见变量（节点）和隐藏变量（节点）的联合概率分布的参数模型。RBM实际上是一种自编码器，基于数据的联合概率分布来得到数据的表示（编码）。 RBM训练的目标是调整模型的参数，并最大化训练数据的对数似然函数。 #R语言构建限制玻尔兹曼机 #取1000个观测值用于分析，其中..

贝叶斯网络：从理论到实现的终极指南

!... # 摘要贝叶斯网络作为概率图模型的一种，凭借其在不确定性和复杂性系统中的强大推理能力，已成为人工智能和机器学习领域中不可或...本文首先介绍了贝叶斯网络的基本概念和理论基础，涵盖条件概率、贝叶斯定理、概率

受限波尔兹曼机（Restricted Boltzmann Machines）介绍

03-25

RBM在深度学习（deep learning）算法中有着非常重要的应用，本文介绍了RBM的基本概念，并介绍了几种有代表性的算法。作者西安交大张春霞，姬楠楠，王冠伟。

概率机器学习模型的优化策略

![概率机器学习模型的优化策略]... # 摘要概率机器学习模型作为机器学习领域的核心内容之一，在近年来受到了广泛关注。本文首先对概率机器学习模型进行了概述，随后深入探讨了概率模型的理论基础，包

keras 受限玻尔兹曼机_深度学习之受限玻尔兹曼机

weixin_39690391的博客

12-19 522

1、什么是受限玻尔兹曼机玻尔兹曼机是一大类的神经网络模型，但是在实际应用中使用最多的则是受限玻尔兹曼机(RBM)。受限玻尔兹曼机(RBM)是一个随机神经网络(即当网络的神经元节点被激活时会有随机行为，随机取值)。它包含一层可视层和一层隐藏层。在同一层的神经元之间是相互独立的，而在不同的网络层之间的神经元是相互连接的(双向连接)。在网络进行训练以及使用时信息会在两个方向上流动，而且两个方向上的权值是...

【RBM】受限玻尔兹曼机(Restricted Boltzmann Machine, RBM) 简介

haoji007的博客

10-17 925

受限玻尔兹曼机(Restricted Boltzmann Machine,简称RBM)是由Hinton和Sejnowski于1986年提出的一种生成式随机神经网络(generative stochastic neural network)，该网络由一些可见单元(visible unit，对应可见变量，亦即数据样本)和一些隐藏单元(hidden unit，对应隐藏变量)构成，可见变量和隐藏变

限制玻尔兹曼机（RBM）学习笔记

JUDGE_MENT的专栏

10-19 6381

一、预备知识 1. 结构限制玻尔兹曼机，主要将玻尔兹曼机限制了2点：1.变成二分图 2. 各边内不准连接。 v层：可见层，输入特征。（好比黑白图片，v层就是某处是

Hinton神经网络公开课12 Restricted Boltzmann machines (RBMs)

weixin_34378922的博客

05-29 134

为什么80%的码农都做不了架构师？>>> ...

Restricted Boltzmann Machine（限制玻尔兹曼机 RBM）

nakaizura

10-21 1万+

RBM原理.玻尔兹曼机最初是作为一种广义的“联结主义”引入，用来学习向量上的任意概率分布。联结主义（connectionism）的中心思想是，当网络将大量简单计算单元连接在一起时可以实现智能的行为。分布式表示（distributed representation）认为系统每个输入应该由许多特征表示的，并且每个特征应参与多个可能输入的表.................

受限制玻尔兹曼机

yanxiaopan的博客

03-03 432

http://blog.csdn.net/itplus/article/details/19168937

模拟退火的数学原理

04-28

<think>好的，用户想详细了解模拟退火算法的数学原理。我之前已经提供了关于基本思想和应用的信息，现在需要深入数学部分。首先，得回忆一下模拟退火的核心概念，比如Metropolis准则、退火过程、温度参数的作用，以及如何用数学描述这些过程。用户可能已经知道模拟退火是受物理退火启发，但需要数学上的解释。我需要从概率论的角度出发，说明状态转移的概率如何随温度变化。Metropolis准则中的接受概率公式是关键，应该详细推导这个公式的来源，可能涉及到热力学中的玻尔兹曼分布。接下来，要解释温度下降的调度方式，比如指数退火、对数退火等数学表达式，以及它们对算法收敛的影响。这里需要引用一些数学定理，比如Kirkpatrick的收敛性证明，或者温度下降的充分条件，如Hajek定理。另外，马尔可夫链在模拟退火中的应用也很重要，每个温度下系统达到平稳分布的条件，以及如何通过马尔可夫链的长度来保证收敛。可能需要涉及马尔可夫链的数学定义和收敛性条件。还要注意数学符号的正确使用，比如能量函数E，温度T，状态转移概率P等，确保使用LaTeX格式。同时，用户可能需要了解算法收敛的数学证明框架，虽然详细证明可能复杂，但可以概述关键步骤和条件。最后，要检查是否有遗漏的数学概念，比如局部最优与全局最优的概率差异，或者如何通过数学方法调整接受概率以避免陷入局部最优。可能需要比较不同接受准则的数学表达式及其影响。生成的问题需要引导用户进一步探索数学细节，例如收敛性证明、温度调度策略的数学优化，或者与其他优化算法的数学比较。确保问题覆盖用户可能感兴趣的深层数学原理和应用中的数学挑战。</think>### 模拟退火算法的数学原理详解 #### 1. 核心数学模型模拟退火算法的数学基础源于统计物理学中的**玻尔兹曼分布**和**马尔可夫链**理论。其核心公式为**状态接受概率**： $$ P = \begin{cases} 1 & \text{若 } \Delta E < 0 \\ e^{-\Delta E / T} & \text{否则} \end{cases} $$ 其中$\Delta E = E_{\text{new}} - E_{\text{old}}$表示新状态与旧状态的**能量差**，$T$为当前温度参数[^1]。 #### 2. 马尔可夫链分析算法在每个温度$T_k$下生成一个马尔可夫链： - **状态转移概率**：$P_{ij}(T_k) = G_{ij}(T_k) \cdot A_{ij}(T_k)$ - $G_{ij}$：从状态$i$到$j$的**生成概率** - $A_{ij}$：**接受概率**，由Metropolis准则决定 - **平稳分布**：当链长足够时，状态分布趋近于： $$ \pi_i(T_k) = \frac{e^{-E_i/T_k}}{Z(T_k)} $$ 其中$Z(T_k)$为配分函数[^2] #### 3. 收敛性证明框架算法收敛需要满足两个基本条件： 1. **温度下降条件**： $$ T_k \geq \frac{C}{\ln(k+1)} \quad (C为问题相关常数) $$ 2. **遍历性条件**：每个状态可达其他任意状态根据Hajek定理，当温度按上述条件下降时，算法以概率1收敛到全局最优解[^1]。 #### 4. 关键数学推导 **Metropolis准则的统计物理基础**：对于热平衡系统，状态出现概率服从玻尔兹曼分布： $$ P(E) \propto e^{-E/(k_B T)} $$ 算法通过模拟这种概率分布实现**定向随机游走**，在高温时允许上坡移动（接受劣解），低温时趋向局部优化。 #### 5. 参数控制方程典型温度更新策略： - **指数退火**：$T_{k+1} = \alpha T_k \quad (0 < \alpha < 1)$ - **对数退火**：$T_k = T_0 / \ln(k+1)$ - **快速退火**：$T_k = T_0 / (k+1)$ 收敛速度与参数选择满足： $$ \lim_{k \to \infty} T_k = 0 \quad \text{且} \quad \sum_{k=1}^\infty e^{-C/T_k} = \infty $$ ```python # 温度更新函数示例 def update_temperature(T0, k, schedule_type='exponential'): if schedule_type == 'exponential': return T0 * 0.95**k elif schedule_type == 'logarithmic': return T0 / np.log(k+2) elif schedule_type == 'fast': return T0 / (k+1) ```