第14章学习与推断

最新推荐文章于 2021-09-13 18:47:13 发布

--FGC--

最新推荐文章于 2021-09-13 18:47:13 发布

阅读量716

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/flyingsbird/article/details/79140360

版权

机器学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

基于概率模型定义的联合概率分布，我们能对目标变量的边际分布（marginal distribution）或以某些可观测变量为条件分布进行推断。条件分布我们已经接触很多，例如在隐马尔可夫模型中要估算观测序列 $x$ 在给定参数 $\lambda$ 下的条件概率分布。边际分布则是指对无关变量求和或积分后得到结果。例如在马尔可夫网中，变量的联合分布被表示成极大团的势函数乘积，于是，给定参数 $\theta$ 求解某个变量 $x$ 的分布，就变成对联合分布中其他无关变量进行积分的过程，这称为“边集化”（marginalization）。
对概率图模型，还需确定具体分布的参数，这称为参数估计或参数学习问题，通常使用极大似然估计或最大后验概率估计求解。但若将参数视为待推测的变量，则参数估计过程和推断十分相似，可以“吸收”到推断问题中。因此，下面我们只讨论概率图模型的推断方法。
具体来说，假设图模型所对应的变量集 $x=\{x_1,x_2,...,x_n\}$ 能分为 $x_E$ 和 $x_F$ 两个不相交的变量集，推断问题的目标就是计算边际概率 $P(x_F)$ 或条件概率 $P(x_F|x_E)$ 。由条件概率定义有

P (x F | x E) = P ( x E , x F ) P ( x E ) = P ( x E , x F ) \sum x F P ( x E , x F ), \cdot \cdot \cdot （ 12 ）

$P(x_F|x_E)=\frac{P(x_E,x_F)}{P(x_E)}=\frac{P(x_E,x_F)}{\sum_{x_F}P(x_E,x_F)},···（12）$
其中联合概率

P(xE,xF) P ( x E , x F ) $P(x_E,x_F)$ 可基于概率图模型获得，因此，推断问题的关键就是如何高效地计算边际分布，即

P (x E) = \sum x F P (x E, x F) . \cdot \cdot \cdot （ 13 ）

$P(x_E)=\sum_{x_F}P(x_E,x_F).···（13）$
概率图模型的推断方法大致可分为两类。第一类是精确推断方法，希望能计算出目标变量的边际分布或条件分布的精确值；遗憾的是，一般情形下，此类算法的计算复杂度随着极大团规模的增长呈指数增长，使用范围有限。第二类是近似推断方法，希望在较低的时间复杂度下获得原问题的近似解；此类方法在现实任务中常用。本节介绍两种代表性的精确推断方法，下一节介绍近似推断方法。

1 变量消去

精确推断的实质是一类动态规划算法，它利用图模型所描述的条件独立性来削减计算目标概率值所需的计算变量。变量消去法是最直观的精确推断算法，也是构建其他精确推断算法的基础。
我们先以图7（a）中的有向图模型为例来介绍工作流程。
图7 变量消去法及其对应的消息传递过程

假定推断目标是计算边际概率 $P(x_5)$ 。显然，为了完成此目标，只需通过加法消去变量 $\{x_1,x_2,x_3,x_4\}$ ，即

P (x 5) = \sum x 4 \sum x 3 \sum x 2 \sum x 1 P (x 1, x 2, x 3, x 4, x 5) = \sum x 4 \sum x 3 \sum x 2 \sum x 1 P (x 1) P (x 2 | x 1) P (x 3 | x 2) P (x 4 | x 3) P (x 5 | x 3) . \cdot \cdot \cdot （ 14 ） (1) (2)

$\begin{align} P(x_5)&=\sum_{x_4}\sum_{x_3}\sum_{x_2}\sum_{x_1}P(x_1,x_2,x_3,x_4,x_5)\\ &=\sum_{x_4}\sum_{x_3}\sum_{x_2}\sum_{x_1}P(x_1)P(x_2|x_1)P(x_3|x_2)P(x_4|x_3)P(x_5|x_3).···（14） \end{align}$
不难发现，若采用

{x1,x2,x4,x3} { x 1 , x 2 , x 4 , x 3 } $\{x_1,x_2,x_4,x_3\}$ 的顺序计算加法，则有

P (x 5) = \sum x 3 P (x 5 | x 3) \sum x 4 P (x 4 | x 3) \sum x 2 P (x 3 | x 2) \sum x 1 P (x 2 | x 1) = \sum x 3 P (x 5 | x 3) \sum x 4 P (x 4 | x 3) \sum x 2 P (x 3 | x 2) m 12 (x 2), \cdot \cdot \cdot （ 15 ） (3) (4)

$\begin{align} P(x_5)&=\sum_{x_3}P(x_5|x_3)\sum_{x_4}P(x_4|x_3)\sum_{x_2}P(x_3|x_2)\sum_{x_1}P(x_2|x_1)\\ &=\sum_{x_3}P(x_5|x_3)\sum_{x_4}P(x_4|x_3)\sum_{x_2}P(x_3|x_2)m_{12}(x_2),···（15） \end{align}$
其中

mij(xj) m i j ( x j ) $m_{ij}(x_j)$ 是求加过程的中间结果，下标

i i $i$ 表示此项是对

x_{i}

$x_i$ 求加的结果，下标

j j $j$ 表示此项中剩下的其他变量。显然，

m_{i j} (x_{j})

$m_{ij}(x_j)$ 是关于

xj x j $x_j$ 的函数。不断执行此过程得

P (x 5) = \sum x 3 P (x 5 | x 3) \sum x 4 P (x 4 | x 3) m 23 (x 3) = \sum x 3 P (x 5 | x 3) m 23 (x 3) \sum x 4 P (x 4 | x 3) = \sum x 3 P (x 5 | x 3) m 23 (x 3) m 43 (x 3) = m 35 (x 5) . \cdot \cdot \cdot （ 16 ） (5) (6) (7) (8)

$\begin{align} P(x_5)&=\sum_{x_3}P(x_5|x_3)\sum_{x_4}P(x_4|x_3)m_{23}(x_3)\\ &=\sum_{x_3}P(x_5|x_3)m_{23}(x_3)\sum_{x_4}P(x_4|x_3)\\ &=\sum_{x_3}P(x_5|x_3)m_{23}(x_3)m_{43}(x_3)\\ &=m_{35}(x_5).···（16） \end{align}$
显然，最后的

m35 m 35 $m_{35}$ 是关于

x5 x 5 $x_5$ 的函数，仅与变量

x5 x 5 $x_5$ 的取值有关。
事实上，上述方法对无向图模型同样适用。不妨忽略图7（a）中的箭头，将其看作一个无向图模型，有

P (x 1, x 2, x 3, x 4, x 5) = 1 Z ψ 12 (x 1, x 2) ψ 23 (x 2, x 3) ψ 34 (x 3, x 4) ψ 35 (x 3, x 5), \cdot \cdot \cdot （ 17 ）

$P(x_1,x_2,x_3,x_4,x_5)=\frac{1}{Z}\psi_{12}(x_1,x_2)\psi_{23}(x_2,x_3)\psi_{34}(x_3,x_4)\psi_{35}(x_3,x_5),···（17）$
其中

Z Z $Z$ 为规范化因子。边际分布

P (x_{5})

$P(x_5)$ 可以这样计算：

P (x 5) = 1 Z \sum x 3 ψ 35 (x 3, x 5) \sum x 4 ψ 34 (x 3, x 4) \sum x 2 ψ 23 (x 2, x 3) \sum x 1 ψ 12 (x 1, x 2) = 1 Z \sum x 3 ψ 35 (x 3, x 5) \sum x 4 ψ 34 (x 3, x 4) \sum x 2 ψ 23 (x 2, x 3) m 12 (x 2) = \cdot \cdot \cdot = 1 Z m 35 (x 5) . \cdot \cdot \cdot （ 18 ） (9) (10) (11) (12)

$\begin{align} P(x_5)&=\frac{1}{Z}\sum_{x_3}\psi_{35}(x_3,x_5)\sum_{x_4}\psi_{34}(x_3,x_4)\sum_{x_2}\psi_{23}(x_2,x_3)\sum_{x_1}\psi_{12}(x_1,x_2)\\ &=\frac{1}{Z}\sum_{x_3}\psi_{35}(x_3,x_5)\sum_{x_4}\psi_{34}(x_3,x_4)\sum_{x_2}\psi_{23}(x_2,x_3)m_{12}(x_2)\\ &=···\\ &=\frac{1}{Z}m_{35}(x_5).···（18） \end{align}$
显然，通过利用乘法对加法的分配律，变量消去法把多个变量的积的求和问题，转化为对部分变量交替进行求积与求和的问题。这种转化使得每次的求和与求积运算限制在局部，仅与部分变量有关，从而简化了计算。
变量消去法有一个明显的缺点：若需要计算多个边际分布，重复使用变量消去将会造成大量的冗余计算。例如在图7（a）的贝叶斯网络上，假定在计算

P(x5) P ( x 5 ) $P(x_5)$ 之外还希望计算

P(x4) P ( x 4 ) $P(x_4)$ ，若采用

{x1,x2,x5,x3} { x 1 , x 2 , x 5 , x 3 } $\{x_1,x_2,x_5,x_3\}$ 的顺序，则

m12(x2) m 12 ( x 2 ) $m_{12}(x_2)$ 和

m23(x3) m 23 ( x 3 ) $m_{23}(x_3)$ 的计算是重复的。

2 信念传播

信念传播（Belief Propagation）算法将变量消去法中的求和操作看作一个消息传递过程，较好地解决了求解多个边际分布时的重复计算问题。具体来说，变量消去法通过求和操作

m i j (x j) = \sum x i ψ (x i, x j) π k \in n (i) ∖ j m k i (x i) \cdot \cdot \cdot （ 19 ）

$m_{ij}(x_j)=\sum_{x_i}\psi(x_i,x_j)\pi_{k\in n(i)\setminus j}m_{ki}(x_i)···（19）$
消去变量

xi x i $x_i$ ，其中

n(i) n ( i ) $n(i)$ 表示节点

xi x i $x_i$ 的邻接节点。在信念传播算法中，这个操作被看作从

xi x i $x_i$ 向

xj x j $x_j$ 传递了一个消息

mij(xj) m i j ( x j ) $m_{ij}(x_j)$ 。这样，式（15）和式（16）所描述的变量消去过程就能描述为图7（b）所示的消息传递过程。不难发现，每次消息传递操作仅与变量

xi x i $x_i$ 及其邻接节点直接相关，换言之，消息传递相关的计算被限制在图的局部进行。
在信念传播算法中，一个节点仅在收到来自其他所有节点的消息后才能向另一个节点发送消息，且节点的边际分布正比于它所接收的消息的乘积，即

P (x i) 正 比 于 \prod k \in n (i) m k i (x i) （ 20 ）

$P(x_i)正比于 \prod_{k\in n(i)}m_{ki}(x_i)\qquad（20）$
例如在图7（b）中，节点

x3 x 3 $x_3$ 要向

x5 x 5 $x_5$ 发送消息，必须事先收到来自节点

x2 x 2 $x_2$ 和

x4 x 4 $x_4$ 的消息，且传递到

x5 x 5 $x_5$ 的消息

m35(x5) m 35 ( x 5 ) $m_{35}(x_5)$ 恰为概率

P(x5) P ( x 5 ) $P(x_5)$ 。
若图结构中没有环，则信念传播算法经过两个步骤即可完成所有消息传递，进而能计算所有变量上的边际分布：
·指定一个根节点，从所有叶节点开始向根节点传递消息，知道根节点收到所有邻接节点的消息；
·从根节点开始向叶节点传递消息，直到所有叶节点均收到消息。
例如在图7（a）中，令

x1 x 1 $x_1$ 为根节点，则

x4 x 4 $x_4$ 和

x5 x 5 $x_5$ 为叶节点。以上两步消息传递的过程如图8所示。此时图的每条边上都有方向不同的两条消息，基于这些消息和式（20）即可获得所有变量的边际概率。
图8 信念传播算法图示