简单易学的机器学习算法——受限玻尔兹曼机RBM

zhiyong_will

已于 2022-04-24 13:16:43 修改

阅读量1.9w

点赞数 14

分类专栏：深度学习Deep Learning 文章标签：受限玻尔兹曼机

于 2016-07-26 18:52:51 首次发布

本文链接：https://blog.csdn.net/google19890102/article/details/51743192

版权

深度学习Deep Learning 专栏收录该内容

79 篇文章

订阅专栏

受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)是一种基于能量模型的神经网络模型，在Hinton提出针对其的训练算法(对比分歧算法)后，RBM得到了更多的关注，利用RBM的堆叠可以构造出深层的神经网络模型——深度信念网(Deep Belief Net, DBN)。下面简单介绍二值型RBM的主要内容。

一、RBM的网络结构

RBM的网络结构如下图所示：

这里写图片描述

RBM中包括两层，即：

可见层(visible layer)，图上的 $\mathbf{v}$
隐藏层(hidden layer)，图上的 $\mathbf{h}$

由上图可知，在同一层中，如上图中的可见层，在可见层中，其节点之间是没有连接的，而在层与层之间，其节点是全连接的，这是RBM最重要的结构特征：层内无连接，层间全连接。

在RBM的模型中，有如下的性质：

当给定可见层神经元的状态时。各隐藏层神经元的之间是否激活是条件独立的；反之也同样成立。

下面给出RBM模型的数学化定义：

如图：

这里写图片描述
(图片来自参考文献1)

假设可见层的神经元的个数为 $n_v$ ，隐藏层的神经元的个数为 $n_h$ ， $\mathbf{v}$ 表示的是可见层神经元的状态， $\mathbf{v}=\left ( v_1,v_2,\cdots ,v_{n_v} \right )^T$ 。 $\mathbf{h}$ 表示的是隐藏层神经元的状态， $\mathbf{h}=\left ( h_1,h_2,\cdots ,h_{n_h} \right )^T$ 。 $\mathbf{a}$ 表示的是可见层神经元的偏置， $\mathbf{a}=\left ( a_1,a_2,\cdots ,a_{n_v} \right )^T\in \mathbb{R}^{n_v}$ 。 $\mathbf{b}$ 表示的是隐藏层神经元的偏置， $\mathbf{b}=\left ( b_1,b_2,\cdots ,b_{n_h} \right )^T\in \mathbb{R}^{n_h}$ 。 $W=\left ( w_{i,j} \right )\in \mathbb{R}^{n_h\times n_v}$ 表示的是隐藏层与可见层之间的连接权重。同时，我们记 $\theta =\left ( W,\mathbf{a},\mathbf{b} \right )$ 。

二、RBM模型的计算

2.1、能量函数

对于一组给定的状态 $\left ( \mathbf{v},\mathbf{h} \right )$ ，定义如下的能量函数：

$E_\theta \left ( \mathbf{v},\mathbf{h} \right )=-\sum_{i=1}^{n_v}a_iv_i-\sum_{j=1}^{n_h}b_jh_j-\sum_{i=1}^{n_v}\sum_{j=1}^{n_h}h_jw_{j,i}v_i$

利用该能量公式，可以定义如下的联合概率分布：

$P_\theta \left ( \mathbf{v},\mathbf{h} \right )=\frac{1}{Z_\theta }e^{-E_\theta \left ( \mathbf{v},\mathbf{h} \right )}$

其中：

$Z_\theta =\sum_{\mathbf{v},\mathbf{h}}e^{-E_\theta \left ( \mathbf{v},\mathbf{h} \right )}$

称为归一化因子。

当有了联合概率分布，我们便可以定义边缘概率分布，即：

$P_\theta \left ( \mathbf{v} \right )=\sum_{\mathbf{h}}P_\theta \left ( \mathbf{v},\mathbf{h} \right )=\frac{1}{Z_\theta }\sum_{\mathbf{h}}e^{-E_\theta \left ( \mathbf{v},\mathbf{h} \right )}$

$P_\theta \left ( \mathbf{h} \right )=\sum_{\mathbf{v}}P_\theta \left ( \mathbf{v},\mathbf{h} \right )=\frac{1}{Z_\theta }\sum_{\mathbf{v}}e^{-E_\theta \left ( \mathbf{v},\mathbf{h} \right )}$

2.2、激活概率

有了上述的联合概率分布以及边缘概率分布，我们需要知道当给定可见层的状态时，隐藏层上的某一个神经元被激活的概率，即 $P\left ( h_k=1\mid \mathbf{v} \right )$ ，或者当给定了隐藏层的状态时，可见层上的某一神经元被激活的概率，即 $P\left ( v_k=1\mid \mathbf{h} \right )$ 。

首先定义如下的一些标记：

$\mathbf{h}_{-k}\overset{\Delta }{=}\left ( h_1,h_2,\cdots ,h_{k-1},h_{k+1},\cdots ,h_{n_h} \right )^T$

上式表示的是在 $\mathbf{h}$ 中去除了分量 $h_k$ 后得到的向量。

$\alpha _k\left ( \mathbf{v} \right )\overset{\Delta }{=}b_k+\sum_{i=1}^{n_v}w_{k,i}v_i$

$\beta \left ( \mathbf{v}, \mathbf{h}_{-k} \right )\overset{\Delta }{=}\sum_{i=1}^{n_v}a_iv_i+\sum_{j=1,j\neq k}^{n_h}b_jh_j+\sum_{i=1}^{n_v}\sum_{j=1,j\neq k}^{n_h}h_jw_{j,i}v_i$

有了如上的一些公式，我们可以得到能量公式的如下表示方法：

$E\left ( \mathbf{v}, \mathbf{h} \right )=-\beta \left ( \mathbf{v}, \mathbf{h}_{-k} \right )-h_k\alpha _k\left ( \mathbf{v} \right )$

那么，当给定可见层的状态时，隐藏层上的某一个神经元被激活的概率 $P\left ( h_k=1\mid \mathbf{v} \right )$ 为：

$KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ P\left ( h_k=1…$

由Sigmoid函数可知：

$Sigmoid\left ( x \right )=\frac{1}{1+e^{-x}}$

则：

$KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ P\left ( h_k=1…$

同理，可以求得当给定了隐藏层的状态时，可见层上的某一神经元被激活的概率 $P\left ( v_k=1\mid \mathbf{h} \right )$ ：

$KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ P\left ( v_k=1…$

2.3、模型的训练

2.3.1、模型的优化函数

对于RBM模型，其参数主要是可见层和隐藏层之间的权重，可见层的偏置以及隐藏层的偏置，即 $\theta =\left ( W,\mathbf{a},\mathbf{b} \right )$ ，对于给定的训练样本，通过训练得到参数$\theta $，使得在该参数下，由RBM表示的概率分布尽可能与训练数据相符合。

假设给定的训练集为：

$\mathbf{X}=\left \{ \mathbf{v}^1, \mathbf{v}^2, \cdots , \mathbf{v}^{n_s} \right \}$

其中， $n_s$ 表示的是训练样本的数目， $\mathbf{v}^i=\left ( v_1^i,v_2^i,\cdots ,v_{n_v}^i \right )^T$ 。为了能够学习出模型中的参数，我们希望利用模型重构出来的数据能够尽可能与原始数据一致，则训练RBM的目标就是最大化如下的似然函数：

$L_\theta =\prod_{i=1}^{n_s}P\left ( \mathbf{v}^i \right )$

对于如上的似然函数的最大化问题，通常是取其log函数的形式：

$lnL_\theta =ln\prod_{i=1}^{n_s}P\left ( \mathbf{v}^i \right )=\sum_{i=1}^{n_s}lnP\left ( \mathbf{v}^i \right )$

2.3.2、最大似然的求解

对于上述的最优化问题，可以使用梯度上升法进行求解，梯度上升法的形式为：

$\theta =\theta +\eta \frac{\partial lnL_\theta }{\partial \theta }$

其中， $\eta > 0$ 称为学习率。对于$ \frac{\partial lnL_\theta }{\partial \theta }$的求解，简单的情况，只考虑一个样本的情况，则：

$KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ lnL_\theta &=…$

则$ \frac{\partial lnL_\theta }{\partial \theta }$为：

$KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ \frac{\partial…$

而：

$\frac{e^{-E\left ( \mathbf{v},\mathbf{h} \right )}}{\sum _{\mathbf{h}}e^{-E\left ( \mathbf{v},\mathbf{h} \right )}}=\frac{\frac{e^{-E\left ( \mathbf{v},\mathbf{h} \right )}}{Z}}{\frac{\sum _{\mathbf{h}}e^{-E\left ( \mathbf{v},\mathbf{h} \right )}}{Z}}=\frac{P\left ( \mathbf{v},\mathbf{h} \right )}{P\left ( \mathbf{v} \right )}=P\left ( \mathbf{h}\mid \mathbf{v} \right )$

因此上式可以表示为：

$\frac{\partial lnL_\theta }{\partial \theta }=-\sum _{\mathbf{h}}P\left ( \mathbf{h}\mid \mathbf{v} \right )\frac{\partial E\left ( \mathbf{v},\mathbf{h} \right )}{\partial \theta }+\sum _{\mathbf{v},\mathbf{h}}P\left ( \mathbf{v},\mathbf{h} \right )\frac{\partial E\left ( \mathbf{v},\mathbf{h} \right )}{\partial \theta }$

其中， $\sum _{\mathbf{h}}P\left ( \mathbf{h}\mid \mathbf{v} \right )\frac{\partial E\left ( \mathbf{v},\mathbf{h} \right )}{\partial \theta }$ 表示的是能量梯度函数 $\frac{\partial E\left ( \mathbf{v},\mathbf{h} \right )}{\partial \theta }$ 在条件分布 $P\left ( \mathbf{h}\mid \mathbf{v} \right )$ 下的期望；$\sum _{\mathbf{v},\mathbf{h}}P\left ( \mathbf{v},\mathbf{h} \right )\frac{\partial E\left ( \mathbf{v},\mathbf{h} \right )}{\partial \theta } $表示的是能量梯度函数$ \frac{\partial E\left ( \mathbf{v},\mathbf{h} \right )}{\partial \theta } $在联合分布$ P\left ( \mathbf{v},\mathbf{h} \right )$下的期望。

对于$\sum _{\mathbf{v},\mathbf{h}}P\left ( \mathbf{v},\mathbf{h} \right )\frac{\partial E\left ( \mathbf{v},\mathbf{h} \right )}{\partial \theta } $，可以表示为：

$KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ \sum _{\mathbf…$

因此，只需要计算 $\sum _{\mathbf{h}}P\left ( \mathbf{h}\mid \mathbf{v} \right )\frac{\partial E\left ( \mathbf{v},\mathbf{h} \right )}{\partial \theta }$ ，这部分的计算分为三个，分别为：

$\sum _{\mathbf{h}}P\left ( \mathbf{h}\mid \mathbf{v} \right )\frac{\partial E\left ( \mathbf{v},\mathbf{h} \right )}{\partial w_{i,j} }$
$\sum _{\mathbf{h}}P\left ( \mathbf{h}\mid \mathbf{v} \right )\frac{\partial E\left ( \mathbf{v},\mathbf{h} \right )}{\partial a_i}$
$\sum _{\mathbf{h}}P\left ( \mathbf{h}\mid \mathbf{v} \right )\frac{\partial E\left ( \mathbf{v},\mathbf{h} \right )}{\partial b_j}$

上述的三个部分计算的方法如下：

已知：

$E_\theta \left ( \mathbf{v},\mathbf{h} \right )=-\sum_{i=1}^{n_v}a_iv_i-\sum_{j=1}^{n_h}b_jh_j-\sum_{i=1}^{n_v}\sum_{j=1}^{n_h}h_jw_{j,i}v_i$

则：

对 $w_{j,i}$ 求导数
$KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ \sum _{\mathbf…$
对 $a_i$ 求导数
$KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ \sum _{\mathbf…$
对 $b_j$ 求导数
$KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ \sum _{\mathbf…$

因此， $\frac{\partial lnL_\theta }{\partial \theta }$ 为：

$\frac{\partial lnL_\theta }{\partial w_{j,i} }=P\left ( h_j=1\mid \mathbf{v} \right )v_i-\sum_{\mathbf{v}}P\left ( \mathbf{v} \right )P\left ( h_j=1\mid \mathbf{v} \right )v_i$

$\frac{\partial lnL_\theta }{\partial a_i }=v_i-\sum_{\mathbf{v}}P\left ( \mathbf{v} \right )v_i$

$\frac{\partial lnL_\theta }{\partial b_j }=P\left ( h_j=1\mid \mathbf{v} \right )-\sum_{\mathbf{v}}P\left ( \mathbf{v} \right )P\left ( h_j=1\mid \mathbf{v} \right )$

2.3.3、优化求解

Hinton提出了高效的训练RBM的算法——对比散度(Contrastive Divergence, CD)算法。

$k$ 步CD算法的具体步骤为：

对 $\forall \mathbf{v}$ ，取初始值： $\mathbf{v}^{\left ( 0 \right )}:=\mathbf{v}$ ，然后执行 $k$ 步Gibbs采样，其中第 $t$ 步先后执行：

利用 $P\left ( \mathbf{h}\mid \mathbf{v}^{\left ( t-1 \right )} \right )$ 采样出 $\mathbf{h}^{\left ( t-1 \right )}$
利用 $P\left ( \mathbf{v}\mid \mathbf{h}^{\left ( t-1 \right )} \right )$ 采样出 $\mathbf{v}^{\left ( t \right )}$

上述两个过程分别记为：sample_h_given_v和sample_v_given_h。记 $p_j^{\mathbf{v}}=P\left ( h_j=1\mid \mathbf{v} \right ),j=1,2,\cdots ,n_h$ ，则sample_h_given_v中的计算可以表示为：

for $j=1,2,\cdots ,n_h$ do
{
- 产生 $\left [ 0,1 \right ]$ 上的随机数 $r_j$
- $h_j=\begin{cases} 1 & \text{ if } r_j<p_j^{\mathbf{v}} \\ 0 & \text{ otherwise } \end{cases}$
}

同样，对于sample_v_given_h，记 $p_i^{\mathbf{h}}=P\left ( v_i=1\mid \mathbf{h} \right ),i=1,2,\cdots ,n_v$ ，则sample_h_given_v中的计算可以表示为：

for $i=1,2,\cdots ,n_v$ do
{
- 产生 $\left [ 0,1 \right ]$ 上的随机数 $r_j$
- $v_i=\begin{cases} 1 & \text{ if } r_i<p_i^{\mathbf{h}} \\ 0 & \text{ otherwise } \end{cases}$
}

三、实验

实验代码

# coding:UTF-8

import numpy as np
import random as rd

def load_data(file_name):
    data = []
    f = open(file_name)
    for line in f.readlines():
        lines = line.strip().split("\t")
        tmp = []
        for x in lines:
            tmp.append(float(x) / 255.0)
        data.append(tmp)
    f.close()
    return data

def sigmrnd(P):
    m, n = np.shape(P)
    X = np.mat(np.zeros((m, n)))
    P_1 = sigm(P)
    for i in xrange(m):
        for j in xrange(n):
            r = rd.random()
            if P_1[i, j] >= r:
                X[i, j] = 1
    
    return X

def sigm(P):
	return 1.0 / (1 + np.exp(-P))         


# step_1: load data    
datafile = "b.txt"
data = np.mat(load_data(datafile))
m, n = np.shape(data)

# step_2: initialize
num_epochs = 10
batch_size = 100
input_dim = n
    
hidden_sz = 100
    
alpha = 1
momentum = 0.1
W = np.mat(np.zeros((hidden_sz, input_dim)))
vW = np.mat(np.zeros((hidden_sz, input_dim)))
b = np.mat(np.zeros((input_dim, 1)))
vb = np.mat(np.zeros((input_dim, 1)))
c = np.mat(np.zeros((hidden_sz, 1)))
vc = np.mat(np.zeros((hidden_sz, 1)))

# step_3: training
print "Start to train RBM: "

num_batches = int(m / batch_size)
for i in xrange(num_epochs):
    kk = np.random.permutation(range(m))
    err = 0.0
 
    for j in xrange(num_batches):
        batch = data[kk[j * batch_size:(j + 1) * batch_size], ]
        
	v1 = batch
        h1 = sigmrnd(np.ones((batch_size, 1)) * c.T + v1 * W.T)
        v2 = sigmrnd(np.ones((batch_size, 1)) * b.T + h1 * W)
        h2 = sigm(np.ones((batch_size, 1)) * c.T + v2 * W.T)
        
        c1 = h1.T * v1
        c2 = h2.T * v2
        
        vW = momentum * vW + alpha * (c1 - c2) / batch_size
        vb = momentum * vb + alpha * sum(v1 - v2).T / batch_size
        vc = momentum * vc + alpha * sum(h1 - h2).T / batch_size
        
        W = W + vW
        b = b + vb
        c = c + vc
	       
 	#cal_err
	err_result = v1 - v2
        err_1 = 0.0
	m_1, n_1 = np.shape(err_result)
	for x in xrange(m_1):
            for y in xrange(n_1):
	        err_1 = err_1 + err_result[x, y] ** 2
	
        err = err + err_1 / batch_size
	#print i,j,err
        
    print i, err / num_batches

#print W

m_2,n_2 = np.shape(W)

for i in xrange(m_2):
    for j in xrange(n_2):
        print str(W[i, j]) + " ",
    print "\n",