深度学习方法：受限玻尔兹曼机RBM（四）对比散度contrastive divergence，CD

最新推荐文章于 2025-10-13 11:31:25 发布

原创最新推荐文章于 2025-10-13 11:31:25 发布 · 1.6w 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#RBM #受限玻尔兹曼机 #deep-learning #对比散度

机器学习 Machine Learning 同时被 3 个专栏收录

50 篇文章

订阅专栏

机器学习与深度学习笔记

45 篇文章

订阅专栏

深度学习 Deep Learning

34 篇文章

订阅专栏

欢迎转载，转载请注明：本文出自Bin的专栏blog.csdn.net/xbinworld。
技术交流QQ群：433250724，欢迎对算法、技术、应用感兴趣的同学加入

上篇讲到，如果用Gibbs Sampling方法来训练rbm会非常慢，本篇中介绍一下对比散度contrastive divergence， CD算法。

我们希望得到 $P(\textbf{v})$ 分布下的样本，而我们有训练样本，可以认为训练样本就是服从 $P(\textbf{v})$ 的。因此，就不需要从随机的状态开始gibbs采样，而从训练样本开始。

CD算法大概思路是这样的，从样本集任意一个样本 $\textbf{v}^0$ 开始，经过k次Gibbs采样（实际中k=1往往就足够了），即每一步是：

h t - 1 \sim P (h | v t - 1) v t \sim P (v | h t - 1)

$\begin{equation} \textbf{h}^{t-1} \sim P(\textbf{h} | \textbf{v}^{t-1})\\ \textbf{v}^{t} \sim P(\textbf{v} | \textbf{h}^{t-1})\\ \end{equation}$

得到样本 $\textbf{v}^{k}$ ，然后对应于上一篇三个单样本的梯度，用 $\textbf{v}^{k}$ 去近似：

\partial ln P ( v ) \partial w i j \approx P (h i = 1 | v 0) v 0 j - P (h i = 1 | v k) v k j \partial ln P ( v ) \partial a i \approx = v 0 i - v k i \partial ln P ( v ) \partial b i \approx P (h i = 1 | v 0) - P (h i = 1 | v k)

$\begin{equation} \frac{\partial \ln P(\textbf{v})}{\partial w_{ij}} \approx P(h_i=1 | \textbf{v}^0)v_{j}^0 - P(h_i=1 | \textbf{v}^k)v_{j}^k\\ \frac{\partial \ln P(\textbf{v})}{\partial a_i} \approx = v_i^0 - v_i^k\\ \frac{\partial \ln P(\textbf{v})}{\partial b_i} \approx P(h_i=1 | \textbf{v}^0) - P(h_i=1 | \textbf{v}^k)\\ \end{equation}$

上述近似的含义是说，用一个采样出来的样本来近似期望的计算。到这里，我们就可以计算 $L_S$ 的梯度了，上面的CD-k算法是用于在一次梯度更新中计算梯度近似值的。下面给出CD-k的算法执行流程，这里小偷懒一下，就借用截图了[7]。

这里写图片描述

其中， $\text{sample_h_given_v}(\textbf{v},W,a,b)$ ，做的事情是这样的（ $\text{sample_v_given_v}(\textbf{h},W,a,b)$ 类似）：
记 $q_j = P(h_j | \textbf{v}), j=1,2,\ldots,n_h$ ，产生一个[0,1]的随机数 $r_j$ ，对每一个 $h_j$ ，如果 $r_j < q_j$ ，则 $h_j = 1$ ，否则 $h_j = 0$ 。

OK，有了CD-k算法，我们也可以总结RMB整个算法了[7]，

这里写图片描述

好，到这里基本讲完了，还有一些细节trick，是不在RBM本身范畴的，在实现的时候可以具体参考[2]。后面有时间再补一篇关于RBM代码的解读。

参考资料
[1] http://www.chawenti.com/articles/17243.html
[2] 张春霞，受限波尔兹曼机简介
[3] http://www.cnblogs.com/tornadomeet/archive/2013/03/27/2984725.html
[4] http://deeplearning.net/tutorial/rbm.html
[5] Asja Fischer, and Christian Igel，An Introduction to RBM
[6] G.Hinton, A Practical Guide to Training Restricted Boltzmann Machines
[7] http://blog.csdn.net/itplus/article/details/19168937
[8] G.Hinton, Training products of experts by minimizing contrastive divergence, 2002.
[9] Bengio, Learning Deep Architectures for AI, 2009