53、提升基于PCA的相关性聚类算法鲁棒性的通用框架

最新推荐文章于 2025-08-15 15:42:14 发布

moon9

最新推荐文章于 2025-08-15 15:42:14 发布

阅读量38

点赞数

CC 4.0 BY-SA版权

分类专栏：科学与统计数据库管理精华文章标签： PCA 相关性聚类鲁棒性

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moon9/article/details/149615476

科学与统计数据库管理精华专栏收录该内容

76 篇文章 ¥69.90 ¥499.90 限时 7 天

订阅专栏

超级会员免费看

提升基于PCA的相关性聚类算法鲁棒性的通用框架

1. 引言

在许多应用中，在任意定向子空间中寻找聚类是一项重要的数据挖掘任务。在高维数据中，由于高维特征空间的一些特性，直接寻找聚类往往比较困难，但通常可以在原始数据空间的任意定向子空间中找到聚类。子空间聚类的点位于一个共同的低维超平面上，并且在属性的一个子集之间表现出共同的相关性，这个任务也被称为相关性聚类。

大多数相关性聚类算法使用主成分分析（PCA）来确定聚类的正确子空间。然而，PCA对异常值非常敏感。如果应用PCA的局部邻域包含不属于该聚类的噪声点，子空间确定过程就会被误导。高维空间存在“维度诅咒”问题，随着数据维度的增加，“接近性”“距离”或“局部邻域”等概念变得不那么有意义，导致更多的异常值不可避免地出现在邻域对象集中。因此，在高维数据空间的相关性聚类中成功应用PCA，可能需要更复杂的选择代表性邻域集的技术。

2. 相关工作

ORCLUS ：一种类似K-means的方法。首先选择$K_c > K$个种子，根据基于相应聚类的特征系统的距离函数将数据库对象分配给这些种子，该距离函数仅评估沿小特征向量的距离。特征系统会根据更新后的聚类的当前状态进行迭代调整，通过合并最接近的聚类对，直到达到用户指定的聚类数量$K$。
4C ：基于密度的聚类范式。聚类数量不是预先确定的，聚类从一个种子开始生长，只要满足密度标准。密度标准是一个点的邻域内所需的最小点数，邻域基于从两点的特征系统计算的距离矩阵确定。
HiCO ：一种层次化方法，根据

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。