来源
PRML 中文翻译书 by 马春鹏
强烈推荐的课程:
高斯混合模型
对于⾼斯混合模型的似然函数:
对于每个观测,我们有⼀个对应的潜在变量,它是⼀个1-of-K的⼆值向量,元素为,其中。
将观测数据集记作,类似地,我们将潜在变量记作。给定混合系数,根据公式(9.10),我们可以写出的条件概率分布,形式为
对于一个为二值随机变量, 其中参数必须满足 ,概率分布可以写为:
给定潜在变量和分量参数,根据公式(9.11),我们可以写出观测数据向量的条件概率分布,形式为
其中且。精度矩阵方便计算
引⼊参数,和上的先验概率分布。如果我们使⽤共轭先验分布,那么分析过程会得到极⼤的简化。于是,我们选择混合系数上的狄利克雷分布。
根据对称性,我们为每个分量选择了同样的参数, 是狄利克雷分布的归⼀化常数,正如我们已经看到的那样,参数可以看成与混合分布的每个分量关联的观测的有效先验数量。如果的值很⼩,那么后验概率分布会主要被数据集影响,⽽受到先验概率的影响很⼩。
引⼊⼀个独⽴的⾼斯-Wishart先验分布,控制每个⾼斯分布的均值和精度,形式为
这是由于当均值和精度均未知的时候,它表⽰共轭先验分布。通常根据对称性,我们选择。这里的对称性不知道什么意思
10.2.1 变分分布
所有随机变量的联合概率分布:
考虑⼀个变分分布,它可以在潜在变量与参数之间进⾏分解
为了让我们的贝叶斯混合模型能够有⼀个合理的可以计算的解,这是我们需要做出的唯⼀的假设。特别地,因⼦和的函数形式会在变分分布的最优化过程中⾃动确定。
因子
由(10.9)
(10.43)
使⽤公式(10.41)给出的分解⽅式。有
(10.44)
对于有:
对于 来说有:
于是有:
(10.44.1)
替换 Equation 10.44中右侧的两个条件分布,然后再次把与Z无关的项整合到可加性常数中,有
(10.45)
根据 Equation 10.44.1 有
(10.46)
其中D是数据变量x的维度。公式(10.45)两侧取指数,有
(10.47)
这个概率分布是归⼀化的,并且我们注意到对于每个n值, 都是⼆值的,在所有的k值上的加和等于1,因此有
对于离散概率分布,有标准的结果
因为为一个one-hot变量,只有0/1的取值
所以有10.50
定义观测数据关于责任的三个统计量:
(10.51)
(10.52)
(10.53)
因子
同样的:由(10.9) 有
(10.54)
For we have
带入有 Equation 10.54
观察到,这个10.54的右侧分解成了若⼲项的和,⼀些项只与相关,⼀些项只与和相关,这表明变分后验概率可以分解为。此外,与和相关的项本⾝由个与和相关的项有关,因此可以进⼀步分解,即
(10.55)
分离出公式(10.54)右侧的与相关的项,我们有
(10.56)
两侧取指数,我们将看成狄利克雷分布
其中的原色为
对于一个Dirichlet Distribution:
对于 i.i.d 仅分析一个k处的 Gaussian-Wishart Distribution:
For Wishart Distribution:
其中是一个归一化参数
关于的二次项有:
关于的一次项有:
所以有 服从高斯分布
剩余的项只与有关
For
有
定义依旧沿用 10.51-10.53 这里还没推导
所以
于是 服从Wishart分布
10.2.2 变分下界
在实际应⽤中,能够在重新估计期间监视模型的下界是很有⽤的,这可以⽤来检测是否收敛。它也可以为解的数学表达式和它们的软件执⾏提供⼀个有价值的检查,因为在迭代重新估计的每个步骤中,这个下界的值应该不会减小。我们可以进⼀步地使⽤变分下界检查更新⽅程的数学推导和它们的软件执⾏的正确性,方法是使⽤有限差来检查每次更新确实给出了下界的⼀个(具有限制条件的)极⼤值
对于高斯分布的变分混合,下届10.3为
(10.70)
(10.71)
中间过程见 附录
附录
- 10.71
- 10.72
- 10.73
迪利克雷分布
- 10.74
- 10.75
- 10.76