GMM(Gaussian mixture model, 高斯混合模型)

最新推荐文章于 2024-07-20 23:39:37 发布

GarfieldEr007

最新推荐文章于 2024-07-20 23:39:37 发布

阅读量1.4w

点赞数 1

分类专栏：计算机视觉CV 文章标签： GMM Gaussian mixture mod 高斯混合模型

计算机视觉CV 专栏收录该内容

327 篇文章 28 订阅

订阅专栏

GMM全称是Gaussian mixture model (高斯混合模型)。与k-means算法类似，GMM也是一种常见的聚类算法，它与k-means区别主要在于，GMM是一种“软聚类”算法，通过它我们可以得到每个样本属于每个中心点的概率。正是因为它的这种性质，GMM在图像分割和语音处理中都有着广泛的应用。
对N个样本数据执行k-means可以得到K个中心点，而对其执行GMM之后将会得到K个高斯分布。使用公式1表示一个高斯分布，其中 θ 表示一个与 ϕ(x∣θ) 相关的位置参数( θ 可以表示期望或者标准差)。

ϕ(x∣θ)=12π√σe−(x−μ)22σ2 公式1

由于GMM得到的是K个高斯分布，因此可以将结果表示成公式2。

P(x∣θ)=∑Kk=1wkϕ(x∣θk) 公式2

wk 为 ϕ(x∣θk) 被选中的概率，所以有 ∑Kk=1wk=1 ; wk≥0 接下来的任务就是估计出一组最优的参数 μ 、 θ 和 w ，这里使用最大似然估计求解。求解之前，先要做一个比较强的假设，所有样本数据相互独立。那么可以得到公式3所示的对数似然估计。

L(θ)=∑Ni=1logP(xi∣θ)=∑Ni=1log∑Kk=1wkϕ(xi∣θk) 公式3

将要估计的最优值记作 θ^=argmaxθL(θ) 对于公式3所示的方程，很难通过直接求导令倒数为零这种方式获取最大值。因此在这里使用EM算法求解，EM算法的原理可以参考附录A。
在这里使用Jensen不等式来寻找下界函数，关于Jensen不等式的描述可以参考附录B。由于函数 f(x)=log(x) 是一个凹函数，所以这里要对原始的Jensen不等式的符号取反。令 γik 表示样本 xi 属于第k个中心的概率如公式4所示。所以可以得到公式5所示的推导。