机器学习笔记之受限玻尔兹曼机(三)推断任务——后验概率

静静的喝酒

已于 2022-12-20 15:08:35 修改

阅读量755

点赞数 2

分类专栏：机器学习文章标签：受限玻尔兹曼机条件概率推断 sigmoid函数 RBM和神经网络的关系

于 2022-12-04 17:45:01 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/128162017

版权

机器学习笔记之受限玻尔兹曼机——推断任务[后验概率]

引言

引言

上一节介绍了受限玻尔兹曼机的模型表示(Representation)，本节将介绍推断任务(Inference)。

回顾：受限玻尔兹曼机的模型表示

针对玻尔兹曼机概率图结构过于复杂，计算代价过于庞大的问题，提出一种关于结点间边的约束方式：只有隐变量和观测变量之间存在边连接，隐变量、观测变量内部无边连接。
已知一个受限玻尔兹曼机表示如下：
受限玻尔兹曼机——示例
从图中可以看出，受限玻尔兹曼机将随机变量集合 $\mathcal X$ 分成两个部分：
$\mathcal X = (x_1,x_2,\cdots,x_p)^T = \begin{pmatrix} h \\ v\end{pmatrix}$

其中蓝色结点表示观测变量包含的随机变量集合(这里使用向量表示) $(v_1,v_2,\cdots,v_n)^T$ ；
白色结点表示隐变量包含的随机变量集合 $(h_1,h_2,\cdots,h_m)^T$ ；
并且有 $m + n = p$ 。

基于该模型，随机变量集合 $\mathcal X$ 的联合概率分布 $\mathcal P(\mathcal X)$ 表示如下：
$\begin{aligned} \mathcal P(\mathcal X) = \mathcal P(h,v) & = \frac{1}{\mathcal Z} \exp \{- \mathbb E(h,v)\} \\ & = \frac{1}{\mathcal Z} \exp (v^T \mathcal W h + b^T v + c^Th) \\ & = \frac{1}{\mathcal Z} \left\{\prod_{j=1}^m \prod_{i=1}^n \exp (v_i \cdot w_{ij} \cdot h_j)\prod_{i=1}^n \exp (b_iv_i) \prod_{j=1}^m \exp (c_jh_j)\right\} \end{aligned}$
其中 $\mathcal W,b,c$ 分别表示针对结点和边的权重信息：
$\mathcal W = \begin{pmatrix} w_{11},w_{12},\cdots,w_{1m} \\ w_{21},w_{22},\cdots,w_{2m} \\ \vdots \\ w_{n1},w_{n2},\cdots,w_{nm} \\ \end{pmatrix}_{n \times m} \quad b = \begin{pmatrix} b_1 \\b_2 \\ \vdots \\ b_n \end{pmatrix}_{n \times 1} \quad c = \begin{pmatrix} c_1 \\ c_2 \\ \vdots \\ c_m \end{pmatrix}_{m \times 1}$

推断任务求解——后验概率(posterior)

关于受限玻尔兹曼机的推断任务，是基于模型参数 $\mathcal W,b,c$ 均已给定(模型已知)，将随机变量 $v, h$ 的概率分布求解出来。这里主要求解两方面的概率结果：

后验概率：包括观测变量后验 $\mathcal P(v \mid h)$ ，以及隐变量后验 $\mathcal P(h \mid v)$ 。
边缘概率：主要关注观测变量边缘概率分布： $\mathcal P(v)$

基于隐变量的后验概率求解

这里以隐变量后验 $\mathcal P(h \mid v)$ 为例，进行求解。 $\mathcal P(h \mid v)$ 本质上是针对隐变量集合的联合后验概率分布 进行求解：
$\mathcal P(h \mid v) = \mathcal P(h_1,h_2,\cdots,h_m \mid v)$

为了简化运算，定义随机变量集合 $\mathcal X$ 服从伯努利分布(Bernoulli Distribution)。从而无论是观测变量还是隐变量，都仅包含两种选择方式： ${0,1\}$ 。

然而根据受限玻尔兹曼机的特殊约束，在 $v$ 被观测的条件下，任意两个隐变量 $h_i,h_j \in h;i\neq j$ 之间均存在条件独立性。即：
详见马尔可夫随机场的结构表示中的’全局马尔可夫性‘(Global Markov Property)，由于 $h_i,h_j$ 之间不存在直接关联关系，因而它们只可能借助某一观测变量达成关联关系。如果该观测变量被观测， $h_i,h_j$ 之间路径阻塞，两者自然条件独立。
$h_i \perp h_j \mid v$
因而，可以将 $\mathcal P(h \mid v)$ 简化为：
$\mathcal P(h \mid v) = \prod_{l=1}^m \mathcal P(h_l \mid v)$
仅需求解出 $\mathcal P(h_l \mid v)$ 即可。

首先求解 $\mathcal P(h_l = 1 \mid v)$ ，回顾已知条件——模型给定意味着随机变量 $\mathcal X$ 、隐变量 $h$ 、观测变量 $v$ 的 概率密度函数/联合概率分布 $\mathcal P(\mathcal X),\mathcal P(h),\mathcal P(v)$ 均是已知的。因此，这里将除去