【深度学习】受限玻尔兹曼机原理推导

篝火者2312

已于 2024-04-29 18:59:54 修改

阅读量1.5k

点赞数 18

分类专栏：机器学习、人工智能笔记文章标签：深度学习人工智能机器学习

于 2023-12-04 19:40:48 首次发布

本文链接：https://blog.csdn.net/sdksdf/article/details/134792227

版权

机器学习、人工智能同时被 2 个专栏收录

61 篇文章

订阅专栏

笔记

60 篇文章

订阅专栏

1、前言

受限玻尔兹曼机，一个基于概率图的模型。本文对受限玻尔兹曼机的原理进行简单推导，其中相关知识的某些原理也不会过多涉及，只着重于受限玻尔兹曼机。代码实现
数学基础：【概率论与数理统计知识复习-哔哩哔哩】

2、引入

2.1、无向图

在这里插入图片描述

在一张图中，我们存在一些节点和边，这些节点之间存在的某种关系，通过边来表示，节点和边共同组成了一张图，并且这些边是没有方向的（即互联），这种图被称为无向图。

在我们应用的过程中，里面的每一个节点，一般就是我们某个数据的一个维度。比如假设某个样本 $x_i \in (x_1,x_2,x_3,x_4,x_5)$ ，那么图中的 $a, b, c, d, e$ 就分别对应 $x_1,x_2,x_3,x_4,x_5$ 。

性质： $\boxed{成对马尔可夫性：当节点i，j没有边相连，则有x_i\perp x_j|x_{-i-j}}$ 。比如图中，对节点a和c，再给定d的情况下，两者独立 $\rightarrow a\perp c | b$

2.2、受限玻尔兹曼机（RBM）

受限玻尔兹曼机（以下简称RBM），本质上就是一个无向概率图模型，但是它有一个特点，便是引入了隐变量h（无法观测到的数据，意为我们仅仅知道观测数据 $x$ ），其模型图可表示为

在这里插入图片描述

可以看到，对于观测变量 $x$ ，其两两之间是没有边相连。隐变量h也是同理。在实际应用中，一般就是求 $P (h ∣ x)$ 或者 $P (x ∣ h)$ 。

这是一个概率图模型，既然是概率图，那就必须有三大问题—— $\boxed{表示、推断、学习}$

$\boxed{表示——如何将模型表示成概率分布函数的形式}$

$\boxed{推断——如何求出边缘概率，条件概率等(包含预测)}$

$\boxed{学习——如何学习模型参数}$

3、三大问题

3.1、表示

3.1.1、无向图模型表示

在无向图中，一般情况下我们将里面所有的节点表示为
$P(x)=\frac{1}{Z}\prod\limits_{i=1}^k\phi(x_{ci})$
其中， $Z$ 被称为配分函数（用于归一化，保证概率值在0~1）， $\phi$ 被称为势函数， $k$ 就是图中 $\boxed{最大团}$ 的个数（不理解没关系，也可以直接看RBM的模型表示），其中
$Z=\sum\limits_{x}\prod\limits_{i=1}^k\phi (x_{ci})$
对于势函数 $\phi$ ，我们一般定义为
$\phi(x_{ci})=\exp\left\{-E(x_{ci})\right\}$
$E(x_{ci})$ 为最大团对应的能量函数

所以，最终的模型可以表示为（将多个exp相乘转成相加）
$P(x)=\frac{1}{Z}\exp\left\{-\sum\limits_{i=1}^kE(x_{ci})\right\}\tag{1}$
这只是一个大体形式的表达，具体到其他模型中，能量函数需要自行去设定。

3.1.2、RBM模型表示

对于（式1），exp里面的 $x_{ci}$ ，加上连加号，可以用所有的x表示（去掉连加号）
$P(x)=\frac{1}{Z}\exp\left\{-E(x)\right\}$
又因为在RBM中，节点数包括隐变量 $h$ 和观测变量 $x$ ，所以，理应表达成
$P(x,h)=\frac{1}{Z}\exp\left\{-E(x,h)\right\}$
定义变量
$x=\begin{pmatrix} x_1 \\ x_2 \\ \cdots \\ x_n \end{pmatrix}_{n\times 1};h=\begin{pmatrix} h_1 \\ h_2 \\ \cdots \\ h_m \end{pmatrix}_{m\times 1};w=\begin{bmatrix} w_{11} & w_{12} & \cdots & w_{1m} \\ w_{21} & w_{22} & \cdots & w_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ w_{n1} & w_{n2} & \cdots & w_{nm} \end{bmatrix}_{n \times m}$
x为观测变量的维度，h为隐变量的维度，w为x和h节点相连的的边

所以，一般情况下，我们定义受限玻尔兹曼机
$E(x,h)=-(x^Twh+\alpha^T{h}+\beta^T{x})$
负号是为了抵消掉exp中的负号， $\boxed{\alpha维度是m\times 1}$ ， $\boxed{\beta维度是n\times 1}$ ，参数为 $w,\alpha,\beta$

可以看到，我们表示成了 $\boxed{观测变量与隐变量相连+隐变量节点+观测变量节点}$ 。这种表达是相当合理的。

所以我们的模型就表示为
$P(x,h)=\frac{1}{Z}\exp\left\{x^Twh+\alpha^Th+\beta^Tx\right\}\tag{2}$

3.2、推断

在推断中，是假设我们的参数已经学习出来了。

在传统的RBM中，对于每一个 $h_i,x_i \in {0,1}$ ，也就是一般它们是取二值。

$\boxed{在后面学习问题中，我们仅仅会用到P(h_l|x)或者P(x_l|h)（l代表某一个样本索引），所以推断我们仅仅讲这个}$

因为这是一个二值问题，所以我们只需要求出 $P(h_l=1|x)$ ， $P(h_l=0|x)$ 自然可以为 $1-P(h_l=1|x)$

$\boxed{在求解之前，我们将式（2）分解为和节点l相关与无关的两部分（后面用到）}$
$\begin{aligned} P(x,h)=&\frac{1}{Z}\exp\left\{x^Twh+\alpha^Th+\beta^Tx\right\} \\=&\frac{1}{Z}\exp\left\{\sum\limits_{i=1}^n\sum\limits_{j=1}^mx_iw_{ij}h_{j}+\sum\limits_{j=1}^m\alpha_jh_j+\sum\limits_{i=1}^n\beta_ix_i\right\} \\=&\frac{1}{Z}\exp\left\{\left(\sum\limits_{i=1 }^n\sum\limits_{j\neq l}^mx_iw_{ij}h_{j}+\sum\limits_{i=1}^nx_{i}w_{il}h_{l}\right)+\left(\sum\limits_{j\neq l}^m\alpha_jh_j+\alpha_lh_l\right)+\sum\limits_{i=1}^n\beta_ix_i\right\} \end{aligned}$
将与 $l$ 相关的部分记作 $H_{l}$ ，无关记作 $\bar H_{l}$
$\begin{aligned} H_l=&\sum\limits_{i=1}^nx_iw_{il}h_l+\alpha_lh_l\\ \bar H_l=&\sum\limits_{i=1 }^n\sum\limits_{j\neq l}^mx_iw_{ij}h_{j}+\sum\limits_{j\neq l}^m\alpha_jh_j+\sum\limits_{i=1}^n\beta_ix_i \end{aligned}$
所以
$P(x,h)=\frac{1}{Z}\exp\left\{H_l+\bar H_l\right\}$

3.2.1、求解 $P(h_l=1|x)$

$\begin{align} P(h_l=1|x)=&P(h_l=1|h_{-l},x)\tag{a} \\=&\frac{P(h_l=1,h_{-l},x)}{\sum\limits_{l}P(h_l,h_{-l},x)}\tag{b} \\=&\frac{P(h_l=1,h_{-l},x)}{P(h_l=1,h_{-l},x)+P(h_l=0,h_{-l},x)}\nonumber \end{align}$

$- l$ 表示除了 $l$ 以外的其他样本。（式a）用到了前面提到的 $\boxed{成对马尔科夫性}$ ，（式b）用到了贝叶斯公式。

注意看，分子和分母实际上都是一个 $P (x, h)$ ，只是第 $l$ 个节点确定了某一个值而已。记 $H_l(1)$ 表示 $h_l=1$ 的情况，所以分子，分母分别是
$\begin{aligned} P(h_l=1,h_{-i},x)=&\frac{1}{Z}\exp\left\{H_l(1)+\bar H_l\right\}\\ P(h_l=1,h_{-i},x)+P(h_l=0,h_{-i},x)=&\frac{1}{Z}\exp\left\{H_l(1)+\bar H_l\right\}+\frac{1}{Z}\exp\left\{H_l(0)+\bar H_l\right\} \end{aligned}$
所以
$\begin{align} P(h_l=1|x)=&\frac{\frac{1}{Z}\exp\left\{H_l(1)+\bar H_l\right\}}{\frac{1}{Z}\exp\left\{H_l(1)+\bar H_l\right\}+\frac{1}{Z}\exp\left\{H_l(0)+\bar H_l\right\}}\tag{a} \\=&\frac{1}{1+\exp\left\{H_l(0)+\bar{H_l}-H_l(1)-\bar H_l\right\}}\tag{b} \\=&\frac{1}{1+\exp\left\{H_l(0)-H_l(1)\right\}}\tag{c} \\=&\frac{1}{1+\exp\left\{-\sum\limits_{i=1}^nx_iw_{il}-\alpha_l\right\}}\tag{d} \end{align}$
（式a）到（式b）是分式上下同时除以分子。（式c）到（式d）是将 $H_l$ 的值代入。·

3.2.2、求解 $P(x_l=1|h)$

由于推导过程与 $P(h_l=1|x)$ 一致，所以便不再重复推导，给出结论
$P(x_l=1|h)=\frac{1}{1+\exp\left\{-\sum\limits_{j=1}^mw_{lj}h_j-\beta_l\right\}}$

3.3、学习

$\boxed{Leaning问题是学习出参数\theta \in \{w,\alpha,\beta\}}$

3.3.1、目标函数

令 $\in X$ ，其中 $X$ 是一个 $N$ 维向量，上标表示样本，下标表示维度
$X=\begin{pmatrix} x^1 \\ x^2 \\ \vdots \\ x^N \end{pmatrix}_{N \times n}$
采用极大似然估计的思想，我们对log似然求最大
$\begin{aligned} \log{P(X)}=&\log{\prod\limits_{i=1}^NP(x^i)} \\=&\sum\limits_{i=1}^N\log{P(x^i)} \end{aligned}$
所以目标函数就是
$\arg\max_{\theta}\log P(X)=\arg\max_{\theta}\frac{1}{N}\sum\limits_{i=1}^N\log P(x^i)$
$\frac{1}{N}$ 是常数，不影响最终结果，加上仅是为了后面的 $\boxed{梯度下降}$

3.3.2、梯度上升

$\boxed{对目标函数关于\theta求偏导得}$
$\begin{aligned} &\frac{\partial}{\partial \theta}\frac{1}{N}\sum\limits_{i=1}^N\log P(x^i) \\=&\frac{1}{N}\sum\limits_{i=1}^N\frac{\partial}{\partial \theta}\log P(x^i) \end{aligned}\tag{3}$
该问题并没有解析解，需要迭代式求解，将（式3）每一项单独看（为了简便，用x代表某一个样本）
$\begin{aligned} \log P(x)=&\log\sum\limits_{h} P(x,h) \\=&\log \sum\limits_{h}\frac{1}{Z}\exp\left\{-E(x,h)\right\} \\=&\log\frac{1}{Z}\sum\limits_{h}\exp\left\{-E(x,h)\right\} \\=&\log\sum\limits_{h}\exp\left\{-E(x,h)\right\}-\log Z \\=&\underbrace{\log\sum\limits_{h}\exp\left\{-E(x,h)\right\}}_{①}-\underbrace{\log\sum\limits_{{x,h}}\exp\left\{-E(x,h)\right\}}_{②} \end{aligned}$
分别对里面两部分求偏导（链式求导法则）
$\begin{align} ①=&\frac{\partial }{\partial \theta}\log\sum\limits_{h}\exp\left\{-E(x,h)\right\}\nonumber \\=&-\frac{1}{\sum\limits_{h}\exp\left\{-E(x,h)\right\}}\times\sum\limits_{h}\exp\left\{-E(x,h)\right\}\frac{\partial E(x,h)}{\partial \theta}\nonumber \\=&-\sum\limits_{h}\frac{\exp\left\{-E(x,h)\right\}\frac{\partial E(x,h)}{\partial \theta}}{\sum\limits_{h}\exp\left\{-E(x,h)\right\}}\tag{a} \\=&-\sum\limits_{h}\frac{P(x,h)\frac{\partial E(x,h)}{\partial \theta}}{P(x)}\tag{b} \\=&-\sum\limits_{h}P(h|x)\frac{\partial E(x,h)}{\partial \theta}\nonumber \end{align}$
（式a）到（式b）为分子分母同时除以 $\frac{1}{Z}$ 。

同理有
$\begin{aligned} ②=&\frac{\partial }{\partial \theta}\log\sum\limits_{{x,h}}\exp\left\{-E(x,h)\right\} \\=&-\frac{1}{\sum\limits_{x,h}\exp\left\{-E(x,h)\right\}}\times\sum\limits_{x,h}\exp\left\{-E(x,h)\right\}\frac{\partial E(x,h)}{\partial \theta} \\=&-\sum\limits_{x,h}\frac{\exp\left\{-E(x,h)\right\}\frac{\partial E(x,h)}{\partial \theta}}{\sum\limits_{x,h}\exp\left\{-E(x,h)\right\}} \\=&-\sum\limits_{x,h}P(x,h)\frac{\partial E(x,h)}{\partial \theta} \end{aligned}$
所以
$\begin{aligned} \frac{\partial \log P(x)}{\partial \theta}=\sum\limits_{x,h}P(x,h)\frac{\partial E(x,h)}{\partial \theta}-\sum\limits_{h}P(h|x)\frac{\partial E(x,h)}{\partial \theta} \end{aligned}\tag{4}$
对 $w,\alpha,\beta$ 分别求导

3.3.2.1、w

将 $E (x, h)$ 代入（式4），并对 $w_{ij}$ 求导
$\begin{aligned} \frac{\partial \log P(x)}{\partial w_{ij}}=-\underbrace{\sum\limits_{x,h}P(x,h)x_ih_j}_{①}+\underbrace{\sum\limits_{h}P(h|x)x_ih_j}_{②} \end{aligned}$
对于①
$\begin{align} \sum\limits_{x,h}P(x,h)x_ih_j=&\sum\limits_{x}\sum\limits_{h_j}x_ih_j\sum\limits_{h_1,\cdots,h_{j-1},h_{j+1},h_{m}}P(x,h)\nonumber \\=&\sum\limits_{x}\sum\limits_{h_j}P(h_j|x)P(x)x_ih_j\tag{a} \\=&\sum\limits_{x}P(h_j=1|x)P(x)x_i\tag{b} \end{align}$
（式a）到（式b）是将 $h_j \in (0,1)$ 分别代入
第②项同理
$\begin{aligned} \sum\limits_{h}P(h|x)x_ih_j=&\sum\limits_{h_j}x_ih_j\sum\limits_{h_1,\cdots,h_{j-1},h_{j+1},h_{m}}P(h|x) \\=&\sum\limits_{h_j}P(h_j|x)x_ih_j \\=&P(h_j=1|x)x_i \end{aligned}$
所以
$\frac{\partial \log P(x)}{\partial w_{ij}}=P(h_j=1|x)x_i-\sum\limits_{x}P(h_j=1|x)P(x)x_i$

3.3.2.2、 $\alpha$

$\begin{aligned} \frac{\partial \log P(x)}{\partial \alpha_j}=\sum\limits_{h}P(h|x)h_j-\sum\limits_{x,h}P(x,h)h_j \end{aligned}$

$\boxed{采用与w一样的方法，得到}$
$\frac{\partial \log P(x)}{\partial \alpha_j}=P(h_j=1|x)-\sum\limits_{x}P(h_j=1|x)P(x)$

3.3.2.3、 $\beta$

$\begin{aligned} \frac{\partial \log P(x)}{\partial \beta_i}=\sum\limits_{h}P(h|x)x_i-\sum\limits_{x,h}P(x,h)x_i \end{aligned}$

$\boxed{这个有点特殊}$
$\begin{align} \frac{\partial \log P(x)}{\partial \beta_i}=&\sum\limits_{h}P(h|x)x_i-\sum\limits_{x,h}P(x,h)x_i\nonumber \\=&x_i\sum\limits_{h}P(h|x)-\sum\limits_{x,h}P(h|x)P(x)x_i\tag{a} \\=&x_i-\sum\limits_{x}P(x)x_i\tag{b} \end{align}$
（式a）到（式b）是因为概率求和为1。

3.3.2.4、总梯度

$\boxed{\mathbf{所以单个样本的梯度为：}}$
$\boxed{\begin{aligned} \frac{\partial \log P(x)}{\partial w_{ij}}=&P(h_j=1|x)x_i-\sum\limits_{x}P(h_j=1|x)P(x)x_i\\ \frac{\partial \log P(x)}{\partial \alpha_j}=&P(h_j=1|x)-\sum\limits_{x}P(h_j=1|x)P(x)\\ \frac{\partial \log P(x)}{\partial \beta_i}=&x_i-\sum\limits_{x}P(x)x_i \end{aligned}}$
$\boxed{依据\frac{1}{N}\sum\limits_{i=1}^N\frac{\partial}{\partial \theta}\log P(x^i)}$ ，可得只需要对于每一个样本都求出梯度累加，然后除以N即可。然后利用梯度上升。

3.3.3、存在问题

很容易看到，求梯度的时候用到了 $\sum\limits_{x}$ ，如果 $x$ 维度很大，计算的复杂度往往是非常高的，加上 $P (x)$ 是含有配分函数。所以一般用采样的方法进行近似求解。 $\boxed{在RBM中，一般使用CD-K(类似于吉布斯采样)}$

4、CD-K采样

对每一项
$\sum\limits_{x}P(h_j=1|x)P(x)x_i \approx \frac{1}{n}\sum\limits_{i=1}^nP(h_j=1|x)x_i$
其中 $\sim P(x)$ ，采n个样本，但是对于 $P (x)$ ，其概率分布相对复杂。并且，传统的采样方法何时达到平稳分布是一个极大的问题。所以，我们的采样步骤是这样的
$\boxed{\begin{aligned}For &\hspace{0.5cm}i \hspace{0.5cm} in \hspace{0.5cm} X: \\&x_0=x \\&For \hspace{0.5cm} 1,2,\cdots,k: \\&\hspace{0.5cm} For \hspace{0.5cm} l \hspace{0.5cm} in \hspace{0.5cm} h: h_l\sim P(h_l|x_0) \\&\hspace{0.5cm} For \hspace{0.5cm} l \hspace{0.5cm} in \hspace{0.5cm} x:x_l \sim P(x_l|h_l) \end{aligned}}$
即对每一个样本，以 $x_0=x^i$ ，从 $x_0$ 开始，采样出h，再从h采样出x，最后的x就是我们需要的。其中k就是执行k步吉布斯采样，最终每个样本得到的梯度累加除以N即可