基于高斯混合分布的聚类,我看了很多资料,,写的千篇一律,一律到让人看不明白。直到认真看了几遍周志华写的,每看一遍,都对 GMM 聚类有一个进一步的认识。所以,如果你想了解这一块,别看乱七八糟的博客了,直接去看周志华的《机器学习》 P206页。
下面是我额外看的几篇论文,还不错,我大致总结了一下,作为笔记。
拓展阅读:
1、基于高斯混合模型的层次聚类算法 瞿俊(厦门大学,2006)提到计算高斯混合分布中每两个组成成分的重叠度,然后根据重叠的程度,即重叠率是否大于一个阈值,决定是否将两个分布合并。如果合并了,就重新更新均值和方差。
2、基于高斯混合模型的参数迁移聚类 费全花(西安电子科技大学 2012)的综述部分叙述的还是不错的。提到绝大多数学习方法都是基于训练数据和测试数据都来自于相同的分布和同一个特征空间的假设,当数据分布变化时,又要从头训练数据。此外,被广泛应用的 EM 算法具有对初始值敏感、容易陷入局部最优的缺陷,提出了集成学习和迁移学习的改善思路。集成学习是将多个弱分类器集成为一个强的分类器,而迁移学习是将从一个环境中学习到的任务,用来帮助新环境的学习任务。
理论已经证明,利用混合正态分布模型可以逼近任何一个光滑分布。即只要项数 k 足够大,有限混合分布模型可以用于描述任何复杂的现象。图像分割可归结为一个聚类问题,对于给定的