深度学习中的结构化概率模型
结构化概率模型也称为图模型。
一,非结构化建模的挑战
概率模型可以完成很多任务,例如:
- 估计密度函数
- 去噪
- 缺失值的填补
- 采样
对上千甚至上百万的随机变量的分布建模,无论从计算上还是统计意义上来说,都是一个极具挑战性的任务。
非结构化建模的主要挑战在于参数的数量是巨大的,这会导致:
- 内存:存储参数的开销太大。
- 统计的高效性:容易过拟合,因为数据量不够,所以需要一些平滑方法。
- 推断的时间太长:例如利用联合分布求一些边缘分布或者条件分布。
- 采样的时间太长
主要问题在于我们显示地对每一种可能的变量子集所产生的每一种可能类型的相互作用进行了建模!而实际问题中我们遇到的概率分布远比这个要简单,实际中很多变量只是间接地相互作用,而这种间接地相互作用是可以忽略的,真正需要建模的只是随机变量之间的直接作用!
而结构化概率模型为随机变量之间的直接作用提供了一个正式的建模框架。这种方式大大减少了模型的参数个数,以至于只需要更少的数据来进行有效的估计。这些更小的模型大大减小了在模型存储、模型推断以及从模型中采样时的计算开销。总之,使用结构化概率模型的主要优点是,它们能显著降低表示概率分布、学习和推断的成本。
二,使用图描述模型结构
有向模型
有向图模型是一种结构化概率图模型,也被称为信念网络或者贝叶斯网络。例如:

无向模型
无向图模型是另一种结构化概率图模型,也被称为马尔可夫随机场或者马尔可夫网络。
然而并不是所有情况的相互作用都有一个明确的方向关系。当相互作用并没有本质性的指向,或者是明确的双向相互作用时,使用无向模型更加合适。

配分函数
无向图联合概率的计算方法如下:

其中,Z是归一化常数,或者称为配分函数。它通常是由对所有可能的x状态的联合分布空间求和或者积分得到,所以一般很难计算,因此需要使用一些近似方法来计算。
有向模型和无向模型之间一个重要的区别就是有向模型是通过起始点的概率分布直接定义的,反之无向模型的定义显得更加宽松,通过 ϕ \phi ϕ函数转化为概率分布而定义。这改变了我们处理这些建模问题的直觉。当我们处理无向模型时,需要牢记一点,每一个变量的定义域对于一系列给定的 ϕ \phi ϕ函数所对应的概率分布有着重要的影响!
例如:
如果 x ∈ { 0 , 1 } n x\in \{0,1\}^n x∈{ 0,1}n,那么 p ( x ) p(x) p(x)可以被分解成n个独立的分布,并且满足 p ( x i = 1 ) = s i g m o i d ( b i ) p(x_i=1)=sigmoid(b_i) p(xi=1)=sigmoid(b
最低0.47元/天 解锁文章

27万+

被折叠的 条评论
为什么被折叠?



