第十六章 深度学习中的结构化概率模型
2020-3-29 深度学习笔记16 - 结构化概率模型 1 (非结构化建模的挑战-内存要求大/统计销量低/运行时间长)
图模型为描述概率模型提供了一种优雅、灵活、清晰的语言。
使用图描述模型结构
结构化概率模型使用图(在图论中”结点”是通过”边”来连接的)来表示随机变量之间的相互作用。
- 每一个结点代表一个随机变量。
- 每一条边代表一个直接相互作用。
这些直接相互作用隐含着其他的间接相互作用,但是只有直接的相互作用会被显式地建模。
图模型可以被大致分为两类:基于有向无环图的模型和基于无向图的模型。
1.有向模型Directed Models–减少参数,适用因果关系
有向图模型是一种结构化概率模型,也被称为信念网络或者贝叶斯网络。
之所以命名为有向图模型是因为所有的边都是有方向的,即从一个结点指向另一个结点。 这个方向可以通过画一个箭头来表示。箭头所指的方向表示了这个随机变量的概率分布是由其他变量的概率分布所定义的。
只要有向图中的每个变量都只有少量的父结点,那么这个分布就可以用较少的参数来表示。图结构上的一些限制条件,比如说要求这个图为一棵树,也可以保证一些操作(例如求一小部分变量的边缘或者条件分布)更加地高效。
决定哪些信息需要被包含在图中而哪些不需要是很重要的。 如果变量之间可以被假设为是条件独立的,那么这个图可以包含这种简化假设。
有向图模型的语法并不能对我们如何定义条件分布作出任何限制。 它只定义了哪些变量可以作为其中的参数。
当存在很明显的理由画出每一个指向特定方向的箭头时,有向模型显然最适用。 有向模型中,经常存在我们理解的具有因果关系以及因果关系有明确方向的情况。(例如前面的接力赛例子)
2.无向模型Undirected Models
无向模型,也被称为马尔可夫随机场Markov random fields
(MRFs) 或者是 马尔可夫网络。 无向模型中所有的边都是没有方向的。
当相互的作用并没有本质性的指向,或者是明确的双向相互作用时,使用无向模型更加合适。
举例:
我们希望对三个二值随机变量建模:你是否生病,你的同事是否生病以及你的室友是否生病。 假设
- 你的室友和同事并不认识,所以他们不太可能直接相互传染一些疾病
- 有可能其中之一将感冒传染给你,然后通过你再传染给了另一个人
我们通过对你的同事传染给你,以及你传染给你的室友建模来对这种间接的,从你的同事到你的室友的感冒传染建模。
显然,你传染给你的室友和你的室友传染给你都是非常容易的,所以模型不存在一个明确的单向箭头。 这启发我们使用无向模型。
与有向模型相同的是,如果在无向模型中的两个结点通过一条边相连接,那么对应这些结点的随机变量相互之间是直接作用的。
不同于有向模型,在无向模型中的边是没有方向的,并不与一个条件分布相关联。
我们把对应你健康状况的随机变量记作 h y h_y hy,对应你的室友健康状况的随机变量记作 h r h_r hr,你的同事健康的变量记作 h c h_c hc。无向图如下:

上面的假设条件已经表明,你室友和同事之间相互不认识,他们只能通过你来间接传染。
一个无向模型是一个定义在无向模型 G G G上的结构化概率模型。
对于图中的每一个团clique C C C(图的一个团是图中结点的一个子集,并且其中的点是全连接的), 一个因子factor ϕ ( C ) \phi(C) ϕ(C)(也称为团势能 clique potential ),衡量了团中变量每一种可能的联合状态所对应的密切程度。 这些因子都被限制为是非负的。 它们一起定义了未归一化概率函数:
p ~ ( x ) = ∏ C ∈ G ϕ ( C ) \tilde p(x)=\prod_{C∈G}ϕ(C) p~(x)=C∈G∏ϕ(C)
只要所有团中的结点数都不大,那么我们就能够高效地处理这些未归一化概率函数。
它包含了这样的思想,密切度越高的状态有越大的概率。 然而,不像贝叶斯网络,几乎不存在团定义的结构,所以不能保证把它们乘在一起就能够得到一个有效的概率分布。
在你、你的室友和同事之间感冒传染的例子中包含了两个团。 一个团包含了 h y h_y hy和 h c h_c hc。 这个团的因子可以通过一个表来定义,可能取到下面的值:

状态为 1 1 1代表了健康的状态,状态为 0
本文介绍了深度学习中结构化概率模型的两种主要类型:有向模型(如贝叶斯网络)和无向模型(如马尔可夫随机场)。有向模型适用于表示因果关系,无向模型则适合描述双向相互作用。两种模型通过图结构描述随机变量间的相互作用,各有优缺点,并可通过因子图进行更清晰的表示。
最低0.47元/天 解锁文章
359

被折叠的 条评论
为什么被折叠?



