PRML读书会第五期——概率图模型(Graphical Models)【下】

wxxcl0825

已于 2023-01-06 20:53:40 修改

阅读量207

点赞数

分类专栏：人工智能文章标签：概率论人工智能图论

于 2023-01-06 20:36:00 首次发布

本文链接：https://blog.csdn.net/qq_37638320/article/details/128584577

版权

人工智能专栏收录该内容

4 篇文章 0 订阅

订阅专栏

注：这是全文的第三部分，前文传送门：
PRML读书会第五期——概率图模型(Graphical Models)【上】
PRML读书会第五期——概率图模型(Graphical Models)【中】

附录

Hammesley-Clifford定理证明

Hammesley-Clifford定理：
$MRF\Leftrightarrow Gibbs$

定义

定义1 MRF
$p(x_i|X\setminus \{x_i\})=p(x_i|ne_i)$
定义2 Gibbs
$p(X)=\dfrac{1}{Z}\prod\limits_C \psi_C(X_C)\\ Z=\sum\limits_X\prod\limits_C\psi_C(X_C)$

注：

这里给出了马尔可夫随机场(Markov Random Field,MRF)和吉布斯分布(Gibbs)的定义

由于马尔可夫随机场的三条马尔可夫性等价，这里选取的是局部马尔可夫性，即 $x_i\perp\!\!\!\perp X\setminus (x_i\cup ne_i)|ne_i$ ，在此基础上，由于二者的独立，可以得到：
$p(x_i|ne_i)=p(x_i|ne_i,X\setminus (x_i\cup ne_i))=p(x_i|X\setminus \{x_i\})$

此处吉布斯分布的因子分解中， $C$ 指团（不一定是最大团）

记号与说明：

下文对变量集合与节点集合做符号上的区分： $X$ 指全体随机变量， $G$ 指图的全部节点，但不对变量与节点做符号上的区分， $x_i$ 即可以指随机变量 $x_i$ ，又可以指随机变量对应的节点；同时记所有团的集合为 $C_G$ .
下文中，将所有随机变量当作离散型随机变量处理。对于连续性随机变量，将 $\sum$ 替换为 $\int$ 即可。
由于下文为连续的推导过程，处于简洁考虑，所有式子默认采用 $(*)$ 标注，式前的 $(*)$ 默认指上一个式子。

Gibbs $\Rightarrow$ MRF

只要证 $p(x_i|ne_i)=p(x_i|X\setminus \{x_i\})$ .

记 $D_i\triangleq ne_i\cup x_i$ （此处指节点集合），则由贝叶斯法则和加法法则得：
$p(x_i|ne_i)=\dfrac{p(x_i,ne_i)}{p(ne_i)}=\dfrac{\sum\limits_{G\setminus D_i}p(X)}{\sum\limits_{G\setminus ne_i}p(X)}(*)$
由定义知， $G\setminus ne_i=G\setminus (D_i\setminus \{x_i\})={x_i}\cup(G\setminus D_i)$ ，因此 $\sum\limits_{G\setminus ne_i}$ 可写作 $\sum\limits_{x_i}\sum\limits_{G\setminus D_i}$ .

再带入Gibbs中 $p (X)$ 的表达，得：
$(*)=\dfrac{\sum\limits_{G\setminus D_i}p(X)}{\sum\limits_{x_i}\sum\limits_{G\setminus D_i}p(X)}=\dfrac{\sum\limits_{G\setminus D_i}\prod\limits_{C\in C_G}\psi_C(X_C)}{\sum\limits_{x_i}\sum\limits_{G\setminus D_i}\prod\limits_{C\in C_G}\psi_C(X_C)}(*)$
如图，我们将 $C_G$ 按照是否含有 $x_i$ 进行分组，记
$C_i\triangleq\{C|C\in C_G,x_i\in C\},R_i\triangleq\{C|C\in C_G,x_i\notin C\}$
则
$\prod\limits_{C\in C_G}\psi_C(X_C)=\prod\limits_{C\in C_i}\psi_C(X_C)\prod\limits_{C\in R_i}\psi_C(X_C)$
可以证明： $\forall x\in C_i,x\notin G\setminus D_i$ ，即 $C_i$ 内的节点与 $G$ 中 $D_i$ 外的节点无关。

只要证 $\forall x\in C_i,x\in D_i$ .根据团的定义，团内节点两两相连。又 $x_i\in C_i$ ，则 $\forall x\in C_i(x\not=x_i)$ ， $x$ 与 $x_i$ 直接相连。

根据 $ne_i$ 的定义，与 $x_i$ 直接相连的节点都是 $x_i$ 的邻居。则 $x\in ne_i$ .又 $ne_i\sub D_i$ ，所以 $x\in D_i$ .当 $x=x_i$ 时， $x_i\in D_i$ 也符合。即证。

因此， $C_i$ 与 $G\setminus D_i$ 无关，因子 $\prod\limits_{C\in C_i}\psi_C(X_C)$ 可以提到 $\sum\limits_{G\setminus D_i}$ 外，同时， $R_i$ 与 $x_i$ 无关，可将其提到 $\sum\limits_{x_i}$ 外，得：
$(*)=\dfrac{\sum\limits_{G\setminus D_i}\prod\limits_{C\in C_i}\psi_C(X_C)\prod\limits_{C\in R_i}\psi_C(X_C)}{\sum\limits_{x_i}\sum\limits_{G\setminus D_i}\prod\limits_{C\in C_i}\psi_C(X_C)\prod\limits_{C\in R_i}\psi_C(X_C)}\\ =\dfrac{\prod\limits_{C\in C_i}\psi_C(X_C)\sum\limits_{G\setminus D_i}\prod\limits_{C\in R_i}\psi_C(X_C)}{\sum\limits_{x_i}\prod\limits_{C\in C_i}\psi_C(X_C)\sum\limits_{G\setminus D_i}\prod\limits_{C\in R_i}\psi_C(X_C)}\\ =\dfrac{\prod\limits_{C\in C_i}\psi_C(X_C)\sum\limits_{G\setminus D_i}\prod\limits_{C\in R_i}\psi_C(X_C)}{\Big[\sum\limits_{G\setminus D_i}\prod\limits_{C\in R_i}\psi_C(X_C)\Big]\Big[\sum\limits_{x_i}\prod\limits_{C\in C_i}\psi_C(X_C)\Big]}\\ =\dfrac{\prod\limits_{C\in C_i}\psi_C(X_C)}{\sum\limits_{x_i}\prod\limits_{C\in C_i}\psi_C(X_C)}(*)$
其中最后一步进行了约分。

为了得到目标的形式，向分子分母同乘 $\prod\limits_{C\in R_i}\psi_C(X_C)$ 得：
$(*)=\dfrac{\prod\limits_{C\in C_i}\psi_C(X_C)\prod\limits_{C\in R_i}\psi_C(X_C)}{\sum\limits_{x_i}\prod\limits_{C\in C_i}\psi_C(X_C)\prod\limits_{C\in R_i}\psi_C(X_C)}\\ =\dfrac{\prod\limits_{C\in C_G}\psi_C(X_C)}{\sum\limits_{x_i}\prod\limits_{C\in C_G}\psi_C(X_C)} =\dfrac{p(X)}{\sum\limits_{x_i}p(X)}\\ =\dfrac{p(X)}{p(X\setminus\{x_i\})}=\dfrac{p(X\setminus\{x_i\})p(x_i|X\setminus\{x_i\})}{p(X\setminus\{x_i\})}=p(x_i|X\setminus\{x_i\})$
其中最后两步分别运用加法法则和乘法法则。

综上，即证Gibbs $\Rightarrow$ MRF。

MRF $\Rightarrow$ Gibbs

$\forall S\sub G$ ，构造
$f_S(X_S)=\prod\limits_{Z\sub S}p(Z=X_Z,G\setminus Z=0)^{(-1)^{|S|-|Z|}}$
其中 $Z$ 为 $S$ 的子集。

注：

$f_S$ 定义在节点集合 $S$ 对应的变量集合 $X_S$ 上
$p(Z=X_Z,G\setminus Z=0)$ 的含义是图中仅 $Z$ 中节点对应的随机变量取到对应（ $X_S$ 中的） $X_Z$ 部分的值，而其余变量取0（默认值）时的概率

由于 $Z\sub S$ ，故 $|Z|\leqslant|S|$ ；当 $∣ Z ∣ = ∣ S ∣$ 时， $f_S(X_S)=p(S=X_S,G\setminus S=0)$ .

只要证：(1) $\prod\limits_{S\sub G}f_S(X_S)=p(X)$ (2)若 $S$ 不是团，则 $f_S(X_S)=1$

先证(1)，只要证 $\prod\limits_{S\sub G}f_S(X_S)$ 中除项 $p (X)$ 外其余都可以互相抵消。

原求积顺序是考虑集合 $S$ 的全部子集。让我们更换求积顺序，考虑集合 $Z$ 的全部母集。

事实上，由于 $p(Z=X_Z,G\setminus Z=0)$ 只与 $Z$ 有关，当 $Z$ 确定后， $p(Z=X_Z,G\setminus Z=0)$ 也就唯一确定了。

对 $\forall Z\sub G$ ，记 $\Delta=p(Z=X_Z,G\setminus Z=0)$ .下考虑 $Z$ 的所有母集 $S$ .

当 $S = Z$ 时， $\Delta^{(-1)^0}=\Delta$

当 $S=Z\cup\{x_i\}(x_i\in G\setminus Z)$ 时， $\Delta^{(-1)^1}=\Delta^{-1}$ ，共 $C_{|G|-|Z|}^{1}$ 项，故总贡献为 $\Delta^{(-1)C_{|G|-|Z|}^{1}}$

当 $S=Z\cup\{x_i\}\cup\{x_j\}((x_i,x_j\in G\setminus Z))$ 时， $\Delta^{(-1)^2}=\Delta$ ，共 $C_{|G|-|Z|}^{2}$ 项

以此类推， $Z$ 对结果的总贡献为：
$\Delta\Delta^{(-1)C_{|G|-|Z|}^{1}}\Delta^{(-1)^2C_{|G|-|Z|}^{2}}\cdots\Delta^{(-1)^{|G|-|Z|}C_{|G|-|Z|}^{|G|-|Z|}}=\Delta^{C_{|G|-|Z|}^{0}-C_{|G|-|Z|}^{1}+C_{|G|-|Z|}^{2}-\cdots+(-1)^{|G|-|Z|}C_{|G|-|Z|}^{|G|-|Z|}}(*)$
由二项式定理知，
$0=(1-1)^k=C_k^0-C_k^1+C_k^2-\cdots+(-1)^kC_k^k(k>0)$
因此，当 $∣ Z ∣ < ∣ G ∣$ 时，贡献为 $\Delta^{0}=1$ ；当 $∣ Z ∣ = ∣ G ∣$ 时，贡献为 $\Delta_{\{Z=G\}}$ .

所以 $\prod\limits_{S\sub G}f_S(X_S)=\Delta_{\{Z=G\}}=p(X_G)=p(X)$ ，即证。

再证(2).

先对条件进行转化。若 $S$ 不是团，对团的定义取反，得 $\exist a,b\in S$ ， $a, b$ 不直接相连。

利用这一性质，将 $S$ 划分为 $\{a\}\cup\{b\}\cup (S\setminus \{a,b\})$ .原求积对象为 $\forall Z\sub S$ ，现考虑 $\forall W\sub S\setminus\{a,b\}$ ，则由一个 $W$ 可以衍生出四个不同的 $S$ ： $W,W\cup\{a\},W\cup\{b\},W\cup\{a,b\}$ ，且不同的 $W$ 衍生出的 $S$ 各不相同。

故 $p(Z=X_Z,G\setminus Z=0)^{(-1)^{|S|-|Z|}}$ 可化为以下四项乘积：
$p(W=X_W,G\setminus W=0)^{(-1)^{|S|-|W|}}\quad(1)\\ p(W\cup\{a\}=X_W\cup\{x_a\},G\setminus (W\cup\{a\})=0)^{(-1)^{|S|-(|W|+1)}}\quad(2)\\ p(W\cup\{b\}=X_W\cup\{x_b\},G\setminus (W\cup\{b\})=0)^{(-1)^{|S|-(|W|+1)}}\quad(3)\\ p(W\cup\{a,b\}=X_W\cup\{x_a,x_b\},G\setminus (W\cup\{a,b\})=0)^{(-1)^{|S|-(|W|+2)}}\quad(4)$
观察一下四项的指数，可以发现式 $(1)$ 与式 $(4)$ 指数相等，为 $1)^{|S|-|W|}$ ，而式 $(2)$ 式 $(3)$ 指数相等，为 $1)^{|S|-|W|}$ .将指数部分 $1)^{|S|-|W|}$ 提出后，式 $(2), (3)$ 将多出 $- 1$ 次幂，带上 $- 1$ 次幂后变为分母。

提出指数部分 $1)^{|S|-|W|}$ 后，四项乘积化为：
$\Big[\dfrac{p(W=X_W,G\setminus W=0)p(W\cup\{a,b\}=X_W\cup\{x_a,x_b\},G\setminus (W\cup\{a,b\})=0)}{p(W\cup\{a\}=X_W\cup\{x_a\},G\setminus (W\cup\{a\})=0)p(W\cup\{b\}=X_W\cup\{x_b\},G\setminus (W\cup\{b\})=0)}\Big]^{(-1)^{|S|-|W|}}(*)$
故原式化为
$f_S(X_S)=\prod\limits_{Z\sub S}p(Z=X_Z,G\setminus Z=0)^{(-1)^{|S|-|Z|}}=\prod\limits_{W\sub S\setminus\{a,b\}}\Big(*\Big)$
要证 $f_S(X_S)=1$ ,只要证 $(*)\equiv 1$ 即可。事实上，由于指数的取值仅有 ${1,-1\}$ ，故只要证
$\dfrac{p(W=X_W,G\setminus W=0)p(W\cup\{a,b\}=X_W\cup\{x_a,x_b\},G\setminus (W\cup\{a,b\})=0)}{p(W\cup\{a\}=X_W\cup\{x_a\},G\setminus (W\cup\{a\})=0)p(W\cup\{b\}=X_W\cup\{x_b\},G\setminus (W\cup\{b\})=0)}=1$
由于a,b为不直接相连的节点，为了利用 $MRF$ 中的成对马尔可夫性，我们将上式分组，只要证
$\dfrac{p(W=X_W,G\setminus W=0)}{p(W\cup\{a\}=X_W\cup\{x_a\},G\setminus (W\cup\{a\})=0)}=\dfrac{p(W\cup\{b\}=X_W\cup\{x_b\},G\setminus (W\cup\{b\})=0)}{p(W\cup\{a,b\}=X_W\cup\{x_a,x_b\},G\setminus (W\cup\{a,b\})=0)}$
利用乘法法则对左边进行化简，有
$\dfrac{p(W=X_W,G\setminus W=0)}{p(W\cup\{a\}=X_W\cup\{x_a\},G\setminus (W\cup\{a\})=0)}\\ =\dfrac{p(b=0,W=X_W,G\setminus (W\cup\{a,b\})=0)p(a=0|b=0,W=X_W,G\setminus (W\cup\{a,b\})=0)}{p(b=0,W=X_W,G\setminus (W\cup\{a,b\})=0)p(a=x_a|b=0,W=X_W,G\setminus (W\cup\{a,b\})=0)}(*)$
这一步的实际含义是将状态分子分母中的状态看作由状态 $(b=0,W=X_W,G\setminus (W\cup\{a,b\})=0)$ 得来。此时 $W$ 中的点取到对应值，而 $W\cup\{a,b\}$ 外的点取到默认值，并且我们只考虑到让点b取默认值，并未考虑点a所处的状态。

在此基础上，分子的状态是要 $W$ 中的点取到对应值，而 $W$ 外的点取到默认值。与状态 $(b=0,W=X_W,G\setminus (W\cup\{a,b\})=0)$ 对比可知，我们还需令点a取到默认值，利用乘法法则对这一步骤进行表达。

类似的，分母要求 $W$ 中的点与点a取到对应值，而 $W$ 外的点取到默认值。我们还需令点a取到对应值，同样可以利用乘法法则来表达这一步骤。

不难发现，分子分母可以约分，得
$(*)=\dfrac{p(a=0|b=0,W=X_W,G\setminus (W\cup\{a,b\})=0)}{p(a=x_a|b=0,W=X_W,G\setminus (W\cup\{a,b\})=0)}(*)$
在给定的条件下， $W\cup(G\setminus (W\cup\{a,b\}))=G\setminus\{a,b\}$ 中的节点状态都已确定，意味着 $X\setminus\{x_a,x_b\}$ 都已被观测，又a,b不直接相连，由成对马尔可夫性知
$x_a\perp\!\!\!\perp x_b|X\setminus\{x_a,x_b\}$
$x_a,x_b$ 互不干扰，我们可以修改条件概率对应条件中节点b的状态而不影响对应的概率值。为了得到目标的形式，我们将点b的状态修改为取到它的对应值，有
$(*)=\dfrac{p(a=0|b=x_b,W=X_W,G\setminus (W\cup\{a,b\})=0)}{p(a=x_a|b=x_b,W=X_W,G\setminus (W\cup\{a,b\})=0)}(*)$
继续向目标靠拢，向分子分母同乘 $p(b=x_b,W=X_W,G\setminus (W\cup\{a,b\})=0)$ ，结合乘法法则，有
$(*)=\dfrac{p(a=0|b=x_b,W=X_W,G\setminus (W\cup\{a,b\})=0)p(b=x_b,W=X_W,G\setminus (W\cup\{a,b\})=0)}{p(a=x_a|b=x_b,W=X_W,G\setminus (W\cup\{a,b\})=0)p(b=x_b,W=X_W,G\setminus (W\cup\{a,b\})=0)}\\ =\dfrac{p(b=x_b,W=X_W,G\setminus (W\cup\{a,b\})=0,a=0)}{p(a=x_a,b=x_b,W=X_W,G\setminus (W\cup\{a,b\})=0)}\\ =\dfrac{p(W\cup\{b\}=X_W\cup\{x_b\},G\setminus (W\cup\{b\})=0)}{p(W\cup\{a,b\}=X_W\cup\{x_a,x_b\},G\setminus (W\cup\{a,b\})=0)}$
综上，即证MRF $\Rightarrow$ Gibbs。

综合两节内容，定理得证。

讨论

通过上述证明过程，我们会发现两个问题：

(1)Gibbs仅要求势函数定义在团上，并未要求定义在最大团上 (2)推导过程中未见到归一化常数

对于问题(1)，事实上，通过上述讨论，我们发现势函数并不一定要取自最大团。假设现在有团 $C=\{a,b,c\}$ ，其所有团的势函数乘积为
$\psi_a(a)\psi_b(b)\psi_c(c)\psi_{a,b}(a,b)\psi_{a,c}(a,c)\psi_{b,c}(b,c)\psi_{a,b,c}(a,b,c)\quad(*)$
而这些乘积可以看作一个整体 $\Psi_{a,b,c}(a,b,c)=\big(*\big)$ .由于已知 $C$ 为团，故 $\Psi_{a,b,c}(a,b,c)$ 的定义是合理的。另一方面，将上述7项乘积整合在一起，可以大大减少因子的数量，故尽可能取最大团能让计算得到极大的简化。

对于问题(2)，从MRF $\Rightarrow$ Gibbs的讨论中，我们发现并没有归一化的必要。因为此时我们构造的势函数在累乘后直接得到了联合概率，而联合概率本身是归一化的。

但实际应用中，由于所取的势函数不同，为了保证最终的结果可以用来衡量可能性的大小，我们需要人为的对其进行归一化，使得它能够被看作概率。

非因子形式的Sum-Product算法

引入

让我们继续对变量消除法的讨论。考虑下面的贝叶斯网络：

我们想知道边缘概率 $p (e)$ .利用加法法则与贝叶斯网络的因子分解，有
$p(e)=\sum\limits_{a,b,c,d}p(a,b,c,d,e)\\ =\sum\limits_{a,b,c,d}p(a)p(b|a)p(c|b)p(d|c)p(e|d)(*)$
对其进行变量消除，得
$(*)=\sum\limits_{d}\sum\limits_{c}\sum\limits_{b}\sum\limits_{a}p(a)p(b|a)p(c|b)p(d|c)p(e|d)\\ =\sum\limits_{d}p(e|d)\sum\limits_{c}p(d|c)\sum\limits_{b}p(c|b)\sum\limits_{a}p(b|a)p(a)$
同时，我们又想知道边缘概率 $p (c)$ .重复上述操作，我们有
$p(c)=\sum\limits_{a,b,d,e}p(a,b,c,d,e)\\ =\sum\limits_{a,b,d,e}p(a)p(b|a)p(c|b)p(d|c)p(e|d)\\ =\sum\limits_{b}p(c|b)\sum\limits_{a}p(b|a)p(a)\sum\limits_{d}p(d|c)\sum\limits_{e}p(e|d)\\ =\Big[\sum\limits_{b}p(c|b)\sum\limits_{a}p(b|a)p(a)\Big]\Big[\sum\limits_{d}p(d|c)\sum\limits_{e}p(e|d)\Big]$
对比上面的计算过程，我们明显的发现，因式 $\sum\limits_{b}p(c|b)\sum\limits_{a}p(b|a)p(a)$ 被重复计算了。如果能够重用这些计算结果，将大大提升变量消除法的效率，出于这一目的，我们引入信念传播算法。

符号与规定

为了使传播更加生动形象，针对上文给出的记号 $\phi_x(y)$ ，我们使用 $m_{x\to y}(x_y)$ 来代替它。我们曾经提到过，默认情况下不区分 $y$ 与 $x_y$ ，由于下面需对具体变量进行求和，故在此记号中我们显式地将随机变量与它对应的节点区别开。

另外，我们延用上文中的 $\psi_S$ 记号，指代在因子分解中涉及变量集合 $X_S$ 的那一部分因式。同样的，在这里它并不仅仅指代团上定义的势函数。

在算法推导过程中，我们不特意地考虑归一化常数（随时可能将其忽略），具体处理已在正文中介绍。

算法推导

我们结合具体实例进行推导。有兴趣的读者可以尝试直接证明一般化的结论。

考虑如下的马尔可夫随机场，我们想求得边缘概率 $p (a)$ .

写出它的因子分解，有
$p(a,b,c,d)=\dfrac{1}{Z}\psi_a(a)\psi_b(b)\psi_c(c)\psi_d(d)\psi_{a,b}(a,b)\psi_{b,c}(b,c)\psi_{b,d}(b,d)$
仿照引例的手法进行处理，有
$p(a)=\sum\limits_{x_b,x_c,x_d}p(a,b,c,d)\\ =\sum\limits_{x_b}\sum\limits_{x_c}\sum\limits_{x_d}\psi_a(a)\psi_b(b)\psi_c(c)\psi_d(d)\psi_{a,b}(a,b)\psi_{b,c}(b,c)\psi_{b,d}(b,d)\\ =\psi_a(a)\sum\limits_{x_b}\psi_b(b)\psi_{a,b}(a,b)\sum\limits_{x_c}\psi_c(c)\psi_{b,c}(b,c)\sum\limits_{x_d}\psi_d(d)\psi_{b,d}(b,d)$
引入 $m_{x\to y}(x_y)$ 的记号，得
$\psi_a(a)\sum\limits_{x_b}\psi_b(b)\psi_{a,b}(a,b)\underbrace{\sum\limits_{x_c}\psi_c(c)\psi_{b,c}(b,c)}_{m_{c\to b}(x_b)}\underbrace{\sum\limits_{x_d}\psi_d(d)\psi_{b,d}(b,d)}_{m_{d\to b}(x_b)}\\ =\psi_a(a)\underbrace{\sum\limits_{x_b}\psi_b(b)\psi_{a,b}(a,b)m_{c\to b}(x_b)m_{d\to b}(x_b)}_{m_{b\to a}(x_a)}=\psi_a(a)m_{b\to a}(x_a)$
上述过程又可写作
$\left\{ \begin{array}{ll} m_{b\to a}(x_a)=\sum\limits_{x_b}\psi_b(b)\psi_{a,b}(a,b)m_{c\to b}(x_b)m_{d\to b}(x_b)\\ p(a)=\psi_a(a)m_{b\to a}(x_a) \end{array} \right.$
从图中不难发现， $c, d$ 节点都是 $b$ 节点的邻居。与正文类似的，我们引入记号 $n e (i)$ ，代指 $i$ 节点的全部邻居节点，这样，上式又可以写作
$\left\{ \begin{array}{ll} m_{b\to a}(x_a)=\sum\limits_{x_b}\psi_b(b)\psi_{a,b}(a,b)\prod\limits_{k\in ne(b)\setminus a}m_{k\to b}(x_b)\\ p(a)=\psi_a(a)\prod\limits_{k\in ne(a)}m_{k\to a}(x_a) \end{array} \right.$
进一步泛化 $a, b$ 为 $i, j$ ，我们将得到Sum-product算法的最终形式
$\left\{ \begin{array}{ll} m_{j\to i}(x_i)=\sum\limits_{x_j}\psi_{i,j}(i,j)\psi_j(j)\prod\limits_{k\in ne(j)\setminus i}m_{k\to j}(x_j)\\ p(x_i)=\psi_i(i)\prod\limits_{k\in ne(i)}m_{k\to i}(x_i) \end{array} \right.$
同样地，它具有传递的形式，我们可以认为节点 $j$ 携带的信息量为
$belief(j)=\psi_j(j)\prod\limits_{k\in ne(j)\setminus i}m_{k\to j}(x_j)$
文艺地，我们可以称之为 $j$ 的“信仰（念）”(belief)，由它自己的信息和孩子们传给它的信息构成；而节点 $j$ 所能向节点 $i$ 传递的信息 $m_{j\to i}$ 为
$m_{j\to i}(x_i)=\sum\limits_{x_j}\psi_{i,j}(i,j)belief(j)$
这便是信念传播的最终表现。

操作细节

同样地，这种形式的Sum-Product算法只需求出所有的信息，就可以用这些信息组装出所有的边缘概率。

具体而言，这有两种实现模式：

串行算法(Sequential Implementation)

初始化：任意选定一个根节点，如图中的节点 $a$ .

收集信息：按dfs的形式，递归地收集节点信息，叶子节点为递归边界，如图(a)。伪代码如下：

def collectMsg(x, last):
    for neighbor in ne[x]:
        if neighbor == last:
            continue
        collectMsg(neighbor, x)
    #    
    # Calculate x's message
    #
    
collectMsg(Root, None)

分发信息：按dfs的形式，递归地分发节点信息，如图(b)。伪代码如下：

def distributeMsg(x, last):
    for neighbor in ne[x]:
        if neighbor == last:
            continue
        #
        # Distribute x's message
        #
        distributeMsg(neighbor, x)
        
distributeMsg(Root, None)

组装信息：至此，所有信息均完成计算，故所求的边缘概率能够从这些信息中得出

并行算法(Parallel Implementation)

如图，我们以点为单位开启线程。当每个线程收集到其它节点发送过来的信息后，便立即将其发送出去。同时借助数据结构来记录更新的时序。可以证明，这个算法是收敛的，最终能够有效地求出所有信息，从而组装出我们想要的边缘概率。

衍生算法

同样地，这种形式的Sum-Product算法有其对应的衍生算法。

与正文思路一致，我们得到非因子形式的Max-Product：
$\left\{ \begin{array}{ll} m_{j\to i}(x_i)=\max\limits_{x_j}\psi_{i,j}(i,j)\psi_j(j)\prod\limits_{k\in ne(j)\setminus i}m_{k\to j}(x_j)\\ \max\limits_{X}p(X)=\max\limits_{x_i}\psi_i(i)\prod\limits_{k\in ne(i)}m_{k\to i}(x_i) \end{array} \right.$
与因子形式的Max-Product相比，有趣的是，此处的信息传递仅涉及对一个变量的最优化。我们通过一个实例来体会这一点。

同样是上文中的马尔可夫随机场，现在我们想求得相应的最大后验。

与因子形式的Max-Product类似，我们只需要进行收集信息的过程，如图所示，有
$m_{c\to b}(x_b)=\max_{x_c}\psi_c(c)\psi_{b,c}(b,c)\\ m_{d\to b}(x_b)=\max_{x_d}\psi_d(d)\psi_{b,d}(b,d)\\ m_{b\to a}(x_a)=\max\limits_{x_b}\psi_b(b)\psi_{a,b}(a,b)m_{c\to b}(x_b)m_{d\to b}(x_b)\\ \max_{a,b,c}p(a,b,c)=\max_{x_a}\psi_a(a)m_{b\to a}(x_a)$
我们依次对每个变量进行优化，实现起来将更加清晰明了。

相应地，它也具有数值优化版本——Max-Sum算法。此处不再赘述。

与因子形式的Sum-Product算法的联系

事实上，通过上述推导过程，我们发现仅有两类因子出现： $\psi_{i,j}$ 与 $\psi_i$ ；相应地，我们可以反推出它的因子图具有这样的特点：每个因子节点都只与至多两个变量节点相连。

这是可以做到的。对于马尔可夫随机场来说，通过Hammesley-Clifford定理的证明，我们知道可以将势函数定义在任意的团结构上，而任意相互连接的两点都将构成合法的团结构。因此，我们通过在每条边上插入因子节点的手段来构造相应的因子图。除此之外，每个节点本身也是合法的团结构，所以我们可以自由地向每个节点额外连上一个因子节点。而对于贝叶斯网络来说，我们利用道德图将其转化为对应的马尔可夫随机场。

比如上面我们讨论的例子，对应的因子图为

从这种意义上来说，非因子形式的Sum-Product算法可以看作是因子形式的Sum-Product算法的一个特例。由于没有充分利用因子图将节点进行“集中”的特性，非因子形式的Sum-Product算法将无法处理道德图“伦理”过程形成的环结构；但反过来，正因为它一次至多考虑两个节点，在利用衍生算法求最大后验时，将更易实现。

两种形式的Sum-Product算法各有特色，根据具体任务的需要与个人喜好进行挑选。