贝叶斯网专题5：推理问题化简和MAP问题化简_贝叶斯网络变量消元法例题-CSDN博客

本文链接：https://blog.csdn.net/deepbodhi/article/details/119844019

文章目录

第一部分：贝叶斯网基础
第二部分：贝叶斯网推理
- [2.1 概率推理中的变量消元方法](https://blog.csdn.net/deepbodhi/article/details/119823431?spm=1001.2014.3001.5501#21__7)

第一部分：贝叶斯网基础

第二部分：贝叶斯网推理

2.1 概率推理中的变量消元方法

2.1.5 推理问题化简

前面介绍了通过消元方法降低推理复杂度，且通过选择合适的变量消元顺序，可进一步降低推理复杂度。本小节则介绍通过剔除贝叶斯网络中与推理无关的变量，从而进一步简化推理问题。
在本专题第3讲中，在介绍D分隔和U分隔之间关系时，引入了祖先闭集的概念。紧接着，在祖先闭集与贝叶斯子网中又证明了命题1.3.1：『贝叶斯网中的祖先闭集仍为贝叶斯网，且分布函数不变』。基于该命题，我们可以证明如下定理。

定理2.1.1
给定一贝叶斯网N，设P(Q|E=e)是需要计算的后验概率。令N’为从N中除去在 $an(Q\cup E)$ 之外的所有节点后所得到的贝叶斯网，则：
$P_N(Q|E=e)=P_{N'}(Q|E=e)$

证明:
由命题1.3.1可知：
$P_N(an(Q\cup E))=P_{N'}(an(Q\cup E))$
因此有：
$P_N(Q|E=e)=P_{N'}(Q|E=e)$
命题得证。

该定理表明，在 $an(Q\cup E)$ 之外的所有节点都与P(Q|E=e)无关，因此可在推理前将它们除去，从而降低推理复杂度。

进一步地，在剩余节点 $an(Q\cup E)$ 中，可寻找Q被E D分隔的节点，这些节点与Q相互独立，也可以删去，进而降低推理复杂度。寻找d-分隔的方法可参考本专题第3讲介绍D分隔与U分隔关系部分。
本专题第3讲曾证明过D分隔与条件独立的等价性，证明过程使用了类似如下所示的一张示意图。我们通过在端正图上寻找U分隔，很容易找出Q被E D分隔的节点集Y。E可分为两部分，一部分为存在父节点在X中的节点集 $E_1$ ，剩余的为 $E_2=E-E1$ 。当我们删除与Q独立的所有节点Y后，可能会残留从Y指向 $E_2$ 的边，比如下图中的K节点。这意味着删除Y需要修改节点K的条件概率表，这里只需将K的条件概率表中涉及Y中节点的部分设置为任意分布皆可，因为对于证据变量E，其值确定，概率推理中将不再依赖其条件概率表。
利用条件独立化简贝叶斯网推理

例在如下图所示的贝叶斯网N中，设证据为{B=0,F=1}，考虑计算 $P_N(I|B=0,F=1)$ 。
推理问题简化
首先，保留贝叶斯网N中{I,B,F}节点的祖先闭集，得到上图(b)中的贝叶斯网N’。将N’端正化为无向图，并寻找节点I被{B,F} U分隔的节点集，为{A,D}，从而可知在贝叶斯网N’上，{A,D}与I被{B,F} D分隔，在{B,F}已知的条件下，{A,D}与I独立。因此可进一步删去{A,D}，得到贝叶斯网N’’。所求 $P_N(I|B=0,F=1)=P_{N''}(I|B=0,F=1)$ .

2.1.6 MAP问题化简

在上一讲介绍推理问题时，介绍了MAP问题是推理问题的一种，即计算 $h^*=\argmax_h P(H=h|E=e)$ 的问题。为了解决这个问题，可通过变量消元法，设证据变量为E=e，再逐个消去假设变量H之外的其它变量，获得一个P(H,E=e)的分解，并利用下式计算结果：
$\begin{aligned} \argmax_h P(H|E=e) &= \argmax_h \frac{P(H,E=e)}{\sum_h P(H,E=e)} \\ &= \argmax_h P(H,E=e) \end{aligned}$
搜索最优h的复杂度与假设变量的个数|H|指数相关，当假设变量较多时不可行。因此，需要考虑利用P(H,E=e)的分解来降低计算复杂度。

2.1.6.1 max运算的链式法则

首先来考虑两个运算，即取最大值运算max和搜索最大值点的运算argmax。一般地，设X和Y是两个交空的变量集合，g(X,Y)是它们的函数，那么：
(1) $max_X g(X,Y)$ 是Y的函数；
(2) $argmax_X g(X,Y)$ 是从 $\Omega_Y$ 到 $\Omega_X$ 的映射。
有如下定理，对max运算在不相交自变量集的函数上所满足的链式法则进行了证明。

定理2.1.2
设X,Y,Z是3个两两交空的变量集合，g(X,Y)和h(Y,Z)是两个函数，则有
$\max_{X,Y,Z} g(X,Y)h(Y,Z)=\max_{X,Y} [g(X,Y)\max_Z h(Y,Z)] \tag{1)}$
再设 $\delta(Y)=\argmax_Z h(Y,Z)$
和
$x^*,y^*)=\argmax_{X,Y}[g(X,Y)\max_Z h(Y,Z)]$
那么，
$\argmax_{X,Y,Z}g(X,Y)h(Y,Z)=(x^*,y^*,\delta(y^*)) \tag{2}$

证明：
设 $F_1(X,Y,Z)=g(X,Y)h(Y,Z)$ ，其最大值点为：
$x_1^*,y_1^*,z_1^*)=\argmax_{X,Y,Z} F_1(X,Y,Z)$
再设 $F_2(X,Y)=g(X,Y)\max_Z h(Y,Z)$ ，其最大值点为：
$x^*,y^*)=\argmax_{X,Y} F_2(X,Y)$
对于式(1)等号右侧有：
$\begin{aligned} \max_{X,Y}F_2(X,Y)&\ge F_2(x_1^*,y_1^*)\\ &=g(x_1^*,y_1^*)\max_Zh(y_1^*,Z)\\ &\ge g(x_1^*,y_1^*)h(y_1^*,z_1^*)\\ &=\max_{X,Y,Z}F_1(X,Y,Z) \end{aligned}$
反过来，等号左侧有：
$\begin{aligned} \max_{X,Y,Z}F_1(X,Y,Z)&\ge\max_ZF_1(x^*,y^*,Z)\\ &=\max_Zg(x^*,y^*)h(y^*,Z)\\ &=g(x^*,y^*)\max_Zh(y^*,Z)\\ &=\max_{X,Y}F_2(X,Y) \end{aligned}$
从而，式(1)成立。
同时， $x_1^*=x^*,y_1^*=y^*$ ，对于 $z_1^*$ ，有
$\begin{aligned} z_1^*&=\argmax_Zg(x^*,y^*)h(y^*,Z)\\ &=g(x^*,y^*)\argmax_Zh(y^*,Z)\\ &=\argmax_Zh(y^*,Z)\\ &=\delta(y^*) \end{aligned}$
从而，定理得证。

2.1.6.2 分解和计算复杂度

定理2.1.2提供了利用max运算的链式法则来进行变量消元，从而化简MAP问题的方法。设f(H)=g(X,Y)h(Y,Z)，根据定理2.1.2，函数f(H)的最大值可以通过如下两步获得：
(1) $h'(Y)=\max_Zh(Y,Z)$ ;
(2) $max_{X,Y}g(X,Y)h'(Y)$
我们来分析一下，通过变量消元是否降低了计算复杂度？
设X,Y,Z都是有3种取值的变量.
直接计算 $max_{X,Y,Z} g(X,Y)h(Y,Z)$ 需要进行 $3^3=27$ 次乘法和26次比较。
使用max的链式法则进行计算，第一步对Y的每一个取值需要做2次比较，共6次比较；第二步需要做 $3^2=9$ 次乘法和8次比较。两步共需要9次乘法和14次比较。
新方法比直接计算节省了18次乘法和12次比较。
再根据定理2.1.2，函数f(H)的最大值点可通过如下步骤获得：
(1) $\delta(Y)=\argmax_Zh(Y,Z)$ ;
(2) $x^*,y^*)=\argmax_{X,Y}g(X,Y)h'(Y)$ ;
(3) $z^*=\delta(y^*)$
该过程与计算最大值的过程可同步合并进行，过程中需要对 $\delta(Y)$ 记录。
由此可见，通过变量消元计算MAP问题是一种用空间换时间来降低算法时间复杂度的方法。

2.1.6.3 MAP变量消元算法

基于以上分析，下面给出MAP变量消元算法的形式化描述。
设 $\mathscr F=\{f_1,\cdots,f_m\}$ 是函数f(H)的一个分解，p是一个消元顺序，以下算法给出了一个利用分解 $\mathscr F$ 计算 $max_H,\argmax_Hf(H))$ 的算法，即MAP变量消元法：MAP-VE。
设Z是p中第一个变量。MAP-VE首先从 $\mathscr F$ 中找出所有涉及Z的因子，不失一般性，设为 $f_1,\cdots,f_k$ ，把它们连乘起来，得到函数 $h(Y,Z)=\prod_{i=1}^kf_i$ ，这里Y是h(Y,Z)所涉及的除Z以外的所有变量。记 $\mathscr F$ 中所有其它因子的乘积为函数g(X,Y)，其中X为H中除去Y和Z以外的所有变量，则f(H)=g(X,Y)h(Y,Z)。
MAP-VE算法

例对如下图所示的贝叶斯网，求 $max_{A,B,C,D,E}P(A,B,C,D,E|F=0)$ 和 $argmax_{A,B,C,D,E}P(A,B,C,D,E|F=0)$
变量消元法示例
函数P(A,B,C,D,E,F=0)的分解为：
$\mathscr F=\{P(A),P(B),P(C),P(D|A,B),P(E|B,C),P(F=0|D,E)\}$
设消元顺序为p=<C,E,B,D,A>，MAP-VE算法的运算过程如下：
(1) 首先消去C：
$\delta_1(B,E)=\argmax_CP(C)P(E|B,C)\\ \psi_1(B,E)=\max_CP(C)P(E|B,C)\\ \mathscr F=\{P(A),P(B),P(D|A,B),P(F=0|D,E),\psi_1(B,E)\}$
(2) 递归调用1，消去变量E：
$\delta_2(B,D,F=0)=\argmax_EP(F=0|D,E)\psi_1(B,E)\\ \psi_2(B,D,F=0)=\max_EP(F=0|D,E)\psi_1(B,E)\\ \mathscr F=\{P(A),P(B),P(D|A,B),\psi_2(B,D,F=0)\}$
(3) 递归调用2，消去变量B：
$\delta_3(A,D,F=0)=\argmax_EP(B)P(D|A,B)\psi_2(B,D,F=0)\\ \psi_3(A,D,F=0)=\max_EP(B)P(D|A,B)\psi_2(B,D,F=0)\\ \mathscr F=\{P(A),\psi_3(A,D,F=0)\}$
(4) 递归调用3，消去变量D：
$\delta_4(A,F=0)=\argmax_E\psi_3(A,D,F=0)\\ \psi_4(A,F=0)=\max_E\psi_3(A,D,F=0)\\ \mathscr F=\{P(A),\psi_4(A,F=0)\}$
(5) 递归调用4，消去变量A：因只剩A这一个变量，所以直接进入if判断内，并返回 $v=\psi_5,(a=\delta_5)$ ：
$\delta_5=\argmax_AP(A)\psi_4(A,F=0)\\ \psi_5=\max_AP(A)\psi_4(A,F=0)$
(6) 接着是一连串的递归调用返回：
递归调用3返回 $(v,(a,d=\delta_4(a)))$
递归调用2返回 $(v,(a,d,b=\delta_3(a,d)$ ))
递归调用1返回 $(v,(a,d,b,e=\delta_2(b,d)))$
最后返回 $(v,(a,d,b,e,c=\delta_1(b,e)))$
从而可得:
$v=\max_{A,B,C,D,E}P(A,B,C,D,E,F=0)\\ (a,b,c,d,e)=\argmax_{A,B,C,D,E}P(A,B,C,D,E,F=0)$