提升基于PCA的相关性聚类算法鲁棒性的通用框架
1. 引言
在许多应用中,在任意定向子空间中寻找聚类是一项重要的数据挖掘任务。在高维数据中,由于高维特征空间的一些特性,直接寻找聚类往往比较困难,但通常可以在原始数据空间的任意定向子空间中找到聚类。子空间聚类的点位于一个共同的低维超平面上,并且在属性的一个子集之间表现出共同的相关性,这个任务也被称为相关性聚类。
大多数相关性聚类算法使用主成分分析(PCA)来确定聚类的正确子空间。然而,PCA对异常值非常敏感。如果应用PCA的局部邻域包含不属于该聚类的噪声点,子空间确定过程就会被误导。高维空间存在“维度诅咒”问题,随着数据维度的增加,“接近性”“距离”或“局部邻域”等概念变得不那么有意义,导致更多的异常值不可避免地出现在邻域对象集中。因此,在高维数据空间的相关性聚类中成功应用PCA,可能需要更复杂的选择代表性邻域集的技术。
2. 相关工作
- ORCLUS :一种类似K-means的方法。首先选择$K_c > K$个种子,根据基于相应聚类的特征系统的距离函数将数据库对象分配给这些种子,该距离函数仅评估沿小特征向量的距离。特征系统会根据更新后的聚类的当前状态进行迭代调整,通过合并最接近的聚类对,直到达到用户指定的聚类数量$K$。
- 4C :基于密度的聚类范式。聚类数量不是预先确定的,聚类从一个种子开始生长,只要满足密度标准。密度标准是一个点的邻域内所需的最小点数,邻域基于从两点的特征系统计算的距离矩阵确定。
- HiCO :一种层次化方法,根据
订阅专栏 解锁全文
23

被折叠的 条评论
为什么被折叠?



