结构化概率模型使用图来表示概率分布中随机变量之间的直接相互作用,从而描述一个概率分布。由于模型结构是由图定义的,所以这些模型也通常被称为图模型。
非结构化建模的挑战
深度学习的目标是使机器学习能够解决许多人工智能中亟需解决的挑战,处理具有丰富结构的高维数据。例如图片、声音和带有标点的文档等。
而我们要完成的任务也多种多样,例如分类、估计密度函数、去噪、缺失值的预测、采样等。
深度学习中部分任务的内存开销过于巨大,因此可以使用结构化概率模型。
使用图描述模型结构
主要分为有向图和无向图。
有向模型
有向图模型是一种结构化概率模型,也被称为信念网络或贝叶斯网络。
对于原数据
(
x
,
y
,
z
)
(x, y, z)
(x,y,z),每个维度有100中取值可能,假设三者从左到右相关,即
y
y
y依赖于
x
x
x,
z
z
z依赖于
y
y
y,构成一个有向图(链表),那么如果采用原始的记录方式,需要记录
10
0
3
100^3
1003个数据元组。但由于依赖性,我们可以不记录
(
x
,
y
,
z
)
(x,y,z)
(x,y,z),选择记录
(
x
)
,
(
y
∣
x
)
,
(
z
∣
y
)
(x),( y|x),( z|y)
(x),(y∣x),(z∣y),那么需要记录的数据就变成了20100条,大大降低了内存开销。
无向模型
无向模型也被称为马尔可夫随机场,或马尔可夫网络。无向模型的数据之间的联系都是双向的,例如A是B的朋友,B是C的朋友,B是D的朋友,这样就能建立起一个无向图。
一个无向模型是一个定义在无向模型
G
\mathcal G
G上的结构化概率模型,对于图中的一个团
C
\mathcal C
C,一个因子
ϕ
(
C
)
\phi(\mathcal C)
ϕ(C)衡量了团中变量每一种可能的联合状态所对应的密切程度。这些因子都被限制为非负的。他们一起定义了未归一化概率函数:
p
~
(
x
)
=
∏
C
∈
G
ϕ
(
C
)
\tilde{p}(x)=\prod_{\mathcal C \in \mathcal G}{\phi(\mathcal C)}
p~(x)=C∈G∏ϕ(C)
配分函数
未归一化概率函数无法保证积分为1,因此需要进行归一化
p
(
x
)
=
p
~
(
x
)
Z
p(x) = \frac{\tilde{p}(x)}{Z}
p(x)=Zp~(x)
通常
Z
=
∫
p
~
(
x
)
d
x
Z = \int{\tilde p(x)dx}
Z=∫p~(x)dx,主要目的是让
p
(
x
)
p(x)
p(x)的积分为1。然而在很多深度学习的场景中,
Z
Z
Z被称为配分函数的值并不是很好计算,因此只能提供一些近似的计算方式,在本专栏的第14节将详细介绍。
基于能量的模型
无向模型中的很多结论都依赖于 p ~ ( x ) > 0 \tilde p(x)>0 p~(x)>0这个假设,为了能让这个假设成立,一种简单的方式是使用基于能量的模型,其中 p ~ ( x ) = = e x p ( − E ( x ) ) \tilde p(x) == exp(-E(x)) p~(x)==exp(−E(x)), E ( x ) E(x) E(x)被称为能量函数。服从上式的任意分布被称为玻尔兹曼分布,许多基于能量的模型成为玻尔兹曼机。
分离和d-分离
图中的边显示了哪些变量之间有直接相互作用,但我们经常需要知道哪些变量之间有间接的相互作用,也需要知道哪些变量之间条件独立。这种无向图中隐含的条件独立性被称为分离,例如变量集 A \mathbb A A和 S \mathbb S S相关, B \mathbb B B和 S \mathbb S S相关,当给定 S \mathbb S S的情况下, A \mathbb A A和 B \mathbb B B是条件独立的。同样,在有向图中类似的关系被称为d-分离(d有依赖的意思)。
从图模型中采样
图模型简化了从模型中采样的过程。
有向图模型的一个优点是,可以使用一个简单高效的过程从模型所表示的联合分布中产生样本,这个过程被称为原始采样。但原始采样仅限于有向模型,从无向模型中采样是一个成本很高的多次迭代过程。理论上最简单的方法时Gibbs采样。
结构化建模的优势
使用结构化建模能够显著降低表示概率分布、学习和推断的成本。有向模型中采样还能被加速。
学习依赖关系
当模型旨在描述直接连接的可见变量之间的依赖关系时,通常不可能连接所有变量,因此设计图模型时需要连接那些紧密相关的变量,并忽略其他变量之间的作用。结构学习就是专门讨论这一问题的领域。
结构化概率模型的深度学习方法
受限玻尔兹曼机RBM或簧风琴模型是一种典型的使用图模型的例子。他可以学习输入的表示,将在后续章节中介绍。