题目:A Flexible EM-Like Clustering Algorithm for Noisy Data
一种灵活的EM类噪声数据聚类算法
作者:Violeta Roizman; Matthieu Jonckheere; Frédéric Pascal
摘要
尽管非常流行,但众所周知,高斯混合模型(Gaussian mixture model)的期望最大化(Expectation-Maximization,EM)算法在处理非高斯分布或存在异常值或噪声时表现不佳。在本文中,我们提出了一种灵活的类EM聚类算法(Flexible EM-like Clustering Algorithm,FEMCA):设计了一种新的聚类算法,遵循EM过程。它基于对聚类中心和协方差的估计。此外,使用半参数范式,该方法为每个数据点估计一个未知的尺度参数。这使得算法能够在不过分损失效率的情况下适应更重尾分布、噪声和异常值的各种经典场景。我们首先介绍了独立但不一定是相同分布的椭圆分布样本的一般底层模型。然后,我们在该背景下推导并分析了所提出的算法,特别是展示了底层数据分布的重要无分布特性。通过考虑第一种合成数据,分析了算法的收敛性和准确性特性。最后,我们展示了FEMCA在应用于真实数据集(如MNIST、NORB和20newsgroups&