tags: 聚类相关
原文地址:点击查看原文
- 问题: k-means对异常值敏感。
- 解决方法:在这篇论文中,作者提出了一种基于观察点机制的强健的两阶段k-means聚类算法,该算法能够在不受异常值干扰的情况下准确地发现聚类中心。
- 算法核心:第一步:基于一组 nondegenerate observation points 选择原始数据集的一小部分。子集很好表示原始数据集,因为它仅包含原始数据集密度较高的所有点,并不包括离群异常值。第二步:使用k均值聚类算法对选定的子集进行聚类,并找到适当的聚类中心作为原始数据集的真实聚类中心。 基于这些聚类中心,将原始数据集的其余数据点分配给其中心距离数据点最近的聚类。