贝叶斯网专题8：深入浅出MCMC抽样原理

吴智深

已于 2022-03-24 13:50:40 修改

阅读量1.4k

点赞数 2

分类专栏：统计数据分析文章标签：概率论算法

于 2021-09-10 00:34:27 首次发布

本文链接：https://blog.csdn.net/deepbodhi/article/details/120204597

版权

统计数据分析专栏收录该内容

19 篇文章 38 订阅

订阅专栏

文章目录

第一部分：贝叶斯网基础
第二部分：贝叶斯网推理

第一部分：贝叶斯网基础

第二部分：贝叶斯网推理

2.3 近似推理

2.3.1 蒙特卡洛方法

2.3.1.2 马尔可夫蒙特卡洛抽样法(MCMC)

上节介绍的重要性抽样法，不同样本之间是相互独立的。其中，似然加权算法的局限性在于：证据节点只能影响其后代节点的抽样过程，对非后代节点的影响仅以权重的形式考虑。当大部分证据都位于网络的叶节点时，抽样过程基本上是按照先验分布进行的，而先验分布往往与所期望抽样的后验分布相差甚远。本节将给出MCMC抽样方法，在抽样序列的产生过程中，虽然第一个样本是根据先验分布产生，但可以证明，后面产生的样本分布与所期望的后验分布越来越接近。
MCMC抽样方法很容易实现，其中吉布斯抽样（Gibbs）是MCMC系列算法中最容易实现的一种。但深入浅出阐述其背后原理的文章并不多。本节将尽量做到深入浅出地讲解利用吉布斯抽样对贝叶斯网进行后验概率抽样的原理和方法。
主要将从以下几个方面进行介绍：

马尔可夫链定义和性质
稳定分布和细致平衡条件
多重转移模型
贝叶斯网的吉布斯抽样方法和原理

2.3.1.2.1 马尔可夫链定义和性质

马尔可夫链是由状态空间 $V a l (X)$ 和一个状态转移模型定义的，该模型对每个状态 $x\in Val(X)$ ，定义了下一状态在 $V a l (X)$ 上的分布。即对于每对状态 $x, x^{'}$ ，转移模型 $T$ 指定了从状态 $x$ 到状态 $x^{'}$ 的概率 $T(x\rightarrow x')$ 。由此可见，在马尔可夫链中，当前状态只与上一状态有关，与上一状态之前的状态无关。值得注意的是，此处讨论的马尔可夫链都是齐次马尔可夫链，即系统各状态的转移概率不随时间而改变。
下面用一个简单案例来说明这一概念。
考虑包含5个整数-2,-1,0,1,2的一个马尔可夫链。如下图所示，每个整数分别表示一个状态，用一个节点表示，并排成一排。假设一个蚂蚱从这条线的位置0开始东摇西晃地出发。在每个时间点上，它以0.5的概率停留不动，或以相同的概率向左或向右跳动。因此， $T(i\rightarrow i)=0.5,T(i\rightarrow i+1)=0.25,T(i\rightarrow i-1)=0.25$ 。但处于两端的位置被墙阻隔，所以当蚂蚱在位置2，且尝试向右跳，只能留在原地，即 $T(2\rightarrow 2)=0.75$ .
蚂蚱的马尔可夫链

可以想象随机采样的一个过程，该过程定义了一个随机序列 $x^{(0)},x^{(1)},\cdots$ 。因为转移模型是随机的，所以该过程在第t步的状态可视为一个随机变量 $X^{(t)}$ 。假设初始状态 $X^{(0)}$ 服从某个分布，其后继状态的分布则可通过如下方程定义：
$P^{(t+1)}(X^{(t+1)}=x')=\sum_{x\in Val(X)}P^{(t)}(X^{(t)}=x)T(x\rightarrow x')$
其中， $V a l (X)$ 表示状态空间， $P^{(t)}(X^{(t)}=x)$ 可简写为 $P^{(t)}(x)$ 。

马尔可夫链的价值在于其长期行为具有稳定性，到达稳定的过程具有渐进性。
还是以上文的蚂蚱为例。它在 $t$ 时刻的位置视为随机变量，表示为 $X^{(t)}$ 。考虑 $X^{(t)}$ 上的分布。初始时，蚂蚱的位置是0，所以 $p(X^{(0)}=0)=1$ ；在时刻1， $X^{(1)}$ 以0.5的概率为0，跳动到位置1或-1的概率均为0.25。在时刻2， $X^{(2)}$ 以概率 $0.5^2+2\times0.25^2=0.375$ 为0，在位置1或-1的概率均为 $2\times(0.5\times0.25)=0.25$ ，在位置2或-2的概率均为 $0.25^2=0.0625$ 。随着过程继续，概率被越来越均匀地分散到各个状态。比如，在时刻t=10，不同状态的概率分布几乎是均匀的。
因此，从初始状态开始，该链根据转移模型不断进行转移，在经过若干步 $t$ 后，状态 $X^{(t)}$ 将非常接近状态空间上的均匀分布。当然，对于从均匀分布中采样，该方法并不是一个好的方法。但这种一般化的方法非常适用于从概率图中进行抽样。
该例反映了马尔可夫链的动态渐进性。我们现在感兴趣的是：该过程的极限，即 $P^{(t)}$ 是否会收敛，收敛到何处。

2.3.1.2.2 稳定分布和细致平衡条件

直观上，如果过程收敛，那么可以认为 $P^{(t+1)}$ 接近 $P^{(t)}$ ，可表示为下式：
$P^{(t)}(x')\approx P^{(t+1)}(x')=\sum_{x\in Val(X)}P^{(t)}(x)T(x\rightarrow x') \tag{1}$
我们用 $\pi(X)$ 表示收敛到平衡状态时的稳定分布，上式可简写为：
$\pi(x')=\sum_{x\in Val(X)}\pi(x)T(x\rightarrow x') \tag{2}$
正如上一小节所讨论的，蚂蚱跳动的稳定分布是均匀分布。我们再来看下面一个例子。
如下图所示，显示了一个简单马尔可夫链。
一条简单的马尔可夫链
根据式(2)的定义，稳定分布 $\pi$ 一定满足如下三个等式：
$\pi(x^1)=0.25\pi(x^1)+0.5\pi(x^3)\\ \pi(x^2)=0.7\pi(x^2)+0.5\pi(x^3)\\ \pi(x^3)=0.75\pi(x^1)+0.3\pi(x^2)$
且由概率归一性有：
$\pi(x^1)+\pi(x^2)+\pi(x^3)=1$
从而可解得该马尔可夫链的稳定分布为： $\pi(x^1)=0.2,\pi(x^2)=0.5,\pi(x^3)=0.3$ 。
然而，并不是所有马尔可夫链都有稳定分布。比如下面有两个例子，一个具有周期性，一个是可约的。它们都不具有稳定分布周期马尔可夫链和可约马尔可夫链

一般地，如果一个有限状态的马尔可夫链满足正则性，则其必有稳定分布。关于正则性的定义如下：

定义： 如果存在某个数 $k$ ，使得马尔可夫链对每对 $x,x'\in Val(X)$ ，从 $x$ 恰好以 $k$ 步到达 $x^{'}$ 的概率大于0，那么该马尔可夫链称为正则的（regular）。

比如上图左侧的周期马尔可夫链，就找不到一个使得以下转移同时成立的 $k$ ，因而不存在稳定分布:
$x_1\stackrel k\longrightarrow x_1\\ x_1\stackrel k\longrightarrow x_2\\ x_2\stackrel k\longrightarrow x_1\\ x_2\stackrel k\longrightarrow x_2$

虽然有限状态马尔可夫链可通过正则性确保具有稳定分布，但关于正则性的检查则比较困难。幸运的是，可以定义一个局部的、容易检查的、并且可以刻画稳定分布的测试方法，即细致平衡条件。

定义： 如果存在唯一的分布 $\pi$ ，使得对于所有 $x,x'\in Val(X)$ ：
$\pi(x)T(x\rightarrow x')=\pi(x')T(x'\rightarrow x)\tag{3}$
那么，有限状态马尔可夫链是可逆的，该等式称为细致平衡（detailed balance）。

命题： 若一个正则马尔可夫链满足相对于分布 $\pi$ 的细致平衡条件，那么 $\pi$ 就是该马尔可夫链的稳定分布。【充分条件】

证明： 由式(3)可得：
$\begin{aligned} \sum_{x\in Val(X)}\pi(x)T(x\rightarrow x')&=\sum_{x\in Val(X)}\pi(x')T(x'\rightarrow x)\\ &=\pi(x')\sum_{x\in Val(X)}T(x'\rightarrow x)\\ &=\pi(x') \end{aligned}$
满足式(2)稳定分布的定义，命题得证。
其实，细致平衡条件符合我们对马尔可夫链稳定状态的朴素认知：马尔可夫链达到稳定后，任何一对状态之间的流动是平衡的。

2.3.1.2.3 多重转移模型

我们来考虑蚂蚱案例的一个扩展。当蚂蚱所处的空间不再是一条直线，而是二维平面。在这种情况下，系统的状态由一对随机变量 $X, Y$ 定义。虽然我们可以同时在二维上定义联合转移模型，但分别在 $X, Y$ 两个坐标轴上定义转移模型会更容易。这样，我们会得到两个转移模型，每个这样的转移模型 $T_i$ 称为一个核（kernel）。
蚂蚱的某一次转移为 $(x,y)\rightarrow (x',y')$ ，可将其分解为在两个核上分别进行一次转移，即由 $(x,y)\rightarrow(x',y)\rightarrow(x',y')$ 。这两步称为一个集合步。

命题： 在多核转移模型下，若每一个转移核都满足细致平衡条件，则集合步也满足细致平衡条件。

证明： 我们以二维平面蚂蚱的跳动为例证明上述命题。
蚂蚱的一次转移为 $T((x,y)\rightarrow(x',y'))$ ，其可分解为先在x轴转移一步再在y轴转移一步，或者先在y轴转移一步再在x轴转移一步。x和y轴的转移核分别记为 $T_x,T_y$ ，则有：
$T((x,y)\rightarrow(x',y'))=T_x((x,y)\rightarrow(x',y))T_y((x',y)\rightarrow(x',y'))\tag{4}$
$T((x',y')\rightarrow(x,y))=T_y((x',y')\rightarrow(x',y))T_x((x',y)\rightarrow(x,y))\tag{5}$
由于 $T_x,T_y$ 都满足细致平衡条件，从而有：
$\begin{aligned} \pi(x,y)T_x((x,y)\rightarrow(x',y))&=\pi(x',y)T_x((x',y)\rightarrow(x,y))\\ \pi(x',y)T_y((x',y)\rightarrow(x',y'))&=\pi(x',y')T_y((x',y')\rightarrow(x',y)) \end{aligned}$
代入式(4)，则有：
$\begin{aligned} T((x,y)\rightarrow(x',y'))&=\frac{\pi(x',y)\pi(x',y')}{\pi(x,y)\pi(x',y)}T_y((x',y')\rightarrow(x',y))T_x((x',y)\rightarrow(x,y))\\ &=\frac{\pi(x',y)\pi(x',y')}{\pi(x,y)\pi(x',y)}T((x',y')\rightarrow(x,y))\\ &=\frac{\pi(x',y')}{\pi(x,y)}T((x',y')\rightarrow(x,y)) \end{aligned}$
变形后可得：
$\pi(x,y)T((x,y)\rightarrow(x',y'))=\pi(x',y')T((x',y')\rightarrow(x,y))$
从而集合步也满足细致平衡条件。

2.3.1.2.4 贝叶斯网的吉布斯抽样方法和原理

设有一个贝叶斯网 $N$ ，变量集为 $X$ ，联合概率分布为 $P (X)$ ，证据变量集为 $E$ ，则非证据变量集为 $Z = X - E$ 。对后验概率分布 $P (Z ∣ E = e)$ 进行吉布斯抽样的步骤如下：
1）随机生成一个与证据E=e一致的样本 $D_0$ ；
2）对所有非证据变量 $Z_1,Z_2,\cdots,Z_N\in Z$ ，依次进行抽样。对 $Z_i$ 进行抽样的方法如下：

记 $Z$ 中除 $Z_i$ 外的其它变量为 $Z_{-i}$ ，从下式条件概率中进行抽样，得到一个新的 $z_i'$ ，
$z_i'\sim P(Z_i|z_{-i},e)=\frac{P(Z_i,z_{-i},e)}{\sum_{z_i\in Val(Z_i)}P(z_i,z_{-i},e)}$
上式中， $z_{-i}$ 通过上一步获得的样本点 $D_k$ 进行赋值。联合概率分布可进行因子分解，因子分解后，分子和分母中不包含变量 $Z_i$ 的因子可以约去，从而简化计算。具体可参考后文的一个案例。
经过一轮抽样后，得到一个新的样本点 $D_{k+1}=(z_1',z_2',\cdots,z_N',e)$

3）循环进行第2步，得到若干个样本 $D_1,D_2,\cdots$

例：我们对下图所示的贝叶斯网后验概率进行吉布斯抽样。

示例贝叶斯网

从图中可知，该贝叶斯网的联合概率分布可分解为 $P (X) = P (C) P (R ∣ C) P (S ∣ C) P (W ∣ R, S)$ .
首先随机生成符合证据的初始样本 $D_0=(C=F,S=T,R=T,W=T)$ ；
然后依次对C和S进行抽样：
$\begin{aligned} c'\sim P(C|S=T,R=T,W=T)&=\frac{P(C)P(R=T|C)P(S=T|C)P(W=T|R=T,S=T)}{\sum_{c\in Val(C)}P(C=c)P(R=T|C=c)P(S=T|C=c)P(W=T|R=T,S=T)}\\ &=\frac{P(C)P(R=T|C)P(S=T|C)}{\sum_{c\in Val(C)}P(C=c)P(R=T|C=c)P(S=T|C=c)} \end{aligned}$
将 $C = T$ 和 $C = F$ 分别代入上式，得到 $P (C = T ∣ S = T, R = T, W = T)$ 和 $P (C = F ∣ S = T, R = T, W = T)$ 中，可分别计算出各自的后验概率，不妨设为 $p_1,p_2$ 。随机生成 $[0, 1]$ 区间均匀分布的随机数，若落在 $0,p_1]$ 区间，则 $c^{'} = T$ ，否则为 $F$ 。这里不妨假设 $c^{'} = T$ 。
$\begin{aligned} s'\sim P(S|C=T,R=T,W=T)&=\frac{P(C=T)P(R=T|C=T)P(S|C=T)P(W=T|R=T,S)}{\sum_{s\in Val(S)}P(C=T)P(R=T|C=T)P(S=s|C=T)P(W=T|R=T,S=s)}\\ &=\frac{P(S|C=T)P(W=T|R=T,S)}{\sum_{s\in Val(S)}P(S=s|C=T)P(W=T|R=T,S=s)} \end{aligned}$
用与生成 $c^{'}$ 同样的方法生成 $s^{'}$ ，不妨设为 $s^{'} = F$ 。
从而得到一个抽样样本 $D_1=(C=T,S=F,R=T,W=T)$ 。
重复上述过程，可依次得到若干个抽样样本。

下面我们来证明：

命题： 通过吉布斯抽样方法，所得到的稳定分布即为后验概率分布 $P (Z ∣ E = e)$ 。

证明： 由吉布斯抽样过程可知，在一轮抽样过程中，其对每一个非证据变量依次进行抽样，我们只需要证明：对每一个非证据变量抽样的转移概率 $T_i(z_i\rightarrow z_i')$ 满足相对于后验概率分布 $P (Z ∣ E = e)$ 的细致平衡条件，从而由多重转移模型可知，集合步也满足相对于该后验概率分布的细致平衡条件，进而命题得证。
对集合步中的任一步抽样 $z_i$ ，其转移概率为：
$T_i(z_i\rightarrow z_i')=P(Z_i=z_i'|Z_{-i}=z_{-i},E=e)$
从而，我们可得：
$\begin{aligned} P(Z=z|E=e)P(Z_i=z_i'|Z_{-i}=z_{-i},E=e)&=\frac{P(Z=z|E=e)P(Z_i=z_i',Z_{-i}=z_{-i}|E=e)}{P(Z_{-i}=z_{-i}|E=e)}\\ &=\frac{P(Z_i=z_i,Z_{-i}=z_{-i}|E=e)P(Z_i=z_i',Z_{-i}=z_{-i}|E=e)}{P(Z_{-i}=z_{-i}|E=e)}\\ &=\frac{P(Z_i=z_i,Z_{-i}=z_{-i}'|E=e)P(Z_i=z_i',Z_{-i}=z_{-i}'|E=e)}{P(Z_{-i}=z_{-i}'|E=e)}\\ &=P(Z_i=z_i|Z_{-i}=z_{-i}',E=e)P(Z=z'|E=e) \end{aligned}$
核 $T_i$ 满足细致平衡条件。
命题得证。

吴智深

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
贝叶斯网专题8：深入浅出MCMC抽样原理

文章目录第一部分：贝叶斯网基础[1.1 信息论基础](https://blog.csdn.net/deepbodhi/article/details/119823055)[1.2 贝叶斯网基本概念](https://blog.csdn.net/deepbodhi/article/details/119823243)[1.3 变量独立性的图论分析](https://blog.csdn.net/deepbodhi/article/details/119823321)第二部分：贝叶斯网推理[2.1 概率推理中的变
复制链接

扫一扫