分类目录:《机器学习中的数学》总目录
通过组合一些简单的概率分布来定义新的概率分布也是很常见的。一种通用的组合方法是构造混合分布。混合分布由一些组件分布构成。每次实验,样本是由哪个组件分布产生的取决于从一个 Multinoulli分布中采样的结果:
P
(
x
)
=
∑
i
P
(
c
=
i
)
P
(
x
∣
c
=
i
)
P(x)=\sum_iP(c=i)P(x|c=i)
P(x)=i∑P(c=i)P(x∣c=i)
这里 P ( c ) P(c) P(c)是对各组件的一个Multinoulli分布。我们已经看过一个混合分布的例子了:实值变量的经验分布对于每一个训练实例来说,就是以 Dirac分布为组件的混合分布。
混合模型是组合简单概率分布来生成更丰富的分布的一种简单策略。混合模型使我们能够一瞥以后会用到的一个非常重要的概念——潜变量。潜变量是我们不能直接观测到的随机变量。混合模型的组件标识变量 c c c就是其中一个例子。潜变量在联合分布中可能和 x x x有关,在这种情况下, p ( x , c ) = P ( x ) P ( x ∣ c ) p(x,c)=P(x)P(x|c) p(x,c)=P(x)P(x∣c)。潜变量的分布 P ( c ) P(c) P(c)以及关联潜变量和观测变量的条件分布 P ( x ∣ c ) P(x|c) P(x∣c)共同决定了分布 P ( x ) P(x) P(x)的形状,尽管描述 P ( x ) P(x) P(x)时可能并不需要潜变量。
一个非常强大且常见的混合模型是高斯混合模型,它的组件 P ( x ∣ c = i ) P(x|c=i) P(x∣c=i)是高斯分布。每个组件都有各自的参数,均值 μ ( i ) \mu^{(i)} μ(i)和协方差矩阵 Σ ( i ) \Sigma^{(i)} Σ(i)。有一些混合可以有更多的限制。例如,协方差矩阵可以通过 ∀ i : Σ ( i ) = Σ \forall i:\Sigma^{(i)}=\Sigma ∀i:Σ(i)=Σ的形式在组件之间共享参数。和单个高斯分布一样,高斯混合模型有时会限制每个组件的协方差矩阵为对角的或者各向同性的(标量乘以单位矩阵)。
除了均值和协方差以外,高斯混合模型的参数指明了给每个组件 i i i的先验概率 α i = P ( c = i ) \alpha_i=P(c=i) αi=P(c=i)。“先验”一词表明了在观测到 x x x之前传递给模型关于 c c c的信念。作为对比, P ( c ∣ x ) P(c|x) P(c∣x)是后验概率,因为它是在观测到 x x x之后进行计算的。高斯混合模型是概率密度的万能近似器,在这种意义下,任何平滑的概率密度都可以用具有足够多组件的斯混合模型以任意精度来逼近。