chapter 8:Graphical Models(图模型)

最新推荐文章于 2023-01-06 20:50:08 发布

weishenmetlc

最新推荐文章于 2023-01-06 20:50:08 发布

阅读量2.5k

点赞数

分类专栏：模式识别与机器学习1-14章内容小结-bishop

本文链接：https://blog.csdn.net/weishenmetlc/article/details/52579758

版权

本文深入探讨了图模型，包括有向图模型Bayesian Networks和无向图模型Markov Random Fields。Bayesian Networks通过有向无环图（DAGs）表示变量间的因果关系，其中介绍了生成模型的概念和线性高斯模型。无向图模型强调了条件独立性，特别是通过无环条件独立性质和Markov blankets。此外，文章还讨论了如何在图模型中进行推理，如在树结构和因子图上的sum-product及max-sum算法。

摘要由CSDN通过智能技术生成

一：Introduction

1：图由结点(node)和边(edge)组成，在概率图模型(probabilistic graphical model)中，每个结点表示一个随机变量或者一组随机变量，边表示这些变量之间的概率关系。The graph captures the way in which the joint distribution over all of the random variables can be decomposed into a product of factors each depending only on a subset of the variables。

2：概率图可以分好几种，一种是有向图模型(directed graphical model)，也称作Bayesian networks，连接结点的边有箭头表示特别的方向，一般用来表示随机变量之间的因果关系；还有一种是无向图模型(undirected graphical model)，也叫作Markov random fields，边没有箭头不表示任何的方向，一般用来表示随机变量之间的soft constraints；对于解决推理(inference)问题，也就是求后验分布，一般是把有向图和无向图转换成因子图(factor graph)。

二：Bayesian Netowrks（directed graphical models）:

1：利用有向图，我们可以把所有变量的联合分布表示成一系列条件分布的积。假设有K个结点，每个结点表示一个变量，则这K个变量的联合分布表示如下：

p (x ⃗) = \prod k = 1 K p (x k | p a k)

$p(\vec x)=\prod_{k=1}^{K}p(x_{k}|pa_{k})$

pak $pa_{k}$ 表示结点

xk $x_{k}$ 的父节点，并且

x⃗ ={ x1,...,xK} $\vec x=\{x_{1},...,x_{K}\}$ ；

2：我们说的概率有向图是有向无环图(directed acyclic graphs, DAGs)；也就是沿着边跟随着箭头的方向移动不会回到原来出发的地方

3：在图模型中，结点表示的变量分成两类，一类是observed variables，一类是latent variables(或者是hidden variables)。Observed variables顾名思义表示该变量的值能够被观察到，能够在训练集中直接体现出来，而latent variables的值不能被观察到，不能再训练集中体现出来，比如我们在回归模型中提到的概率分布 $p(t_{n}|\vec w)$ ， $t_{n}$ 为observed variable，它的值已经存在于训练集中了，而参数 $\vec w$ 就称之为latent variables，毕竟它的值不能被直接观察到；

4：Generative models：

（1）：ancestral smapling：假设有一个K个变量的联合分布，其能够被有向图刻画，表达形式为 $p(\vec x)=\prod_{k=1}^{K}p(x_{k}|pa_{k})$ 。并且我们还对K个变量排序，使得任何结点的序列号要高于它们的父结点。为了从概率分布 $p(\vec x)$ 中提取一个样品，我们首先从分布 $p(x_{1})$ 中提取样品 $x_{1}$ ，然后按序列号顺序提取每个结点，以至于我们依据条件分布 $p(x_{n}|pa_{n})$ 提取样品 $x_{n}$ ，这时候一些列结点 $pa_{n}$ 的值已经被设置为它们的样品值了，直到获得结点 $x_{K}$ 的样品值。

$\quad$ 为了获得部分结点的样品值，我们先按上述方法获得K个变量的样品值，然后保留所需要结点的样品值以及抛弃剩余结点的样品值。比如我们想要从分布 $p(x_{2},x_{4})$ 中提取变量 $x_{2},x_{4}$ 的样品值，我们先从全联合分布中获得所有变量的样品值，然后获得样品值 $\widehat x_{2}，\widehat x_{4}$ 以及摒弃剩余的值 $\widehat x_{j \neq 2,4}$ 。

（2）：在我们实际使用图表达概率模型时，高序列号的变量代表observed variables，低序列号的变量代表latent variables，我们可以理解如此的图表示了observed variables值的产生过程，这种刻画了生成observed variables值因果过程的模型被认为是generative model，因此应用于generative model的ancestral sampling的方法就模拟了observed variables值产生的过程。

（3）：latent variables没必要有着明确的物理解释，它们的引入或许仅仅只是为了使复杂的联合分布能够被简单的概率分布构造。

5：Linear-Gaussian models：

（1）：在有向图中，如果结点i代表了满足高斯分布的一个连续变量 $x_{i}$ ，表达形式为 $p(x_{i}|pa_{i})=N(x_{i}|\sum_{j \in pa_{i}}w_{ij}x_{j}+b_{i},v_{i})$ ，其均值为其父节点的线性组合，那么可以证明所有变量 $\vec x$ 的联合分布为高斯分布；