Grouping points by shared subspaces for effective subspace clustering

最新推荐文章于 2024-07-12 15:52:04 发布

三-毛-六

最新推荐文章于 2024-07-12 15:52:04 发布

阅读量166

点赞数

分类专栏：多视图子空间聚类文章标签：聚类算法

本文链接：https://blog.csdn.net/qq_41176760/article/details/118538708

版权

多视图子空间聚类专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Abstract

聚类可能存在于多维数据集的不同子空间中。传统的全空间聚类算法对于这个问题是存在局限的。目前的子空间聚类算法都采用在给定的特征子空间来测量两点之间的相似性这一方法进行聚类。但这种方式在子空间的选择和聚类过程中存在较高的耦合性。为此，我们提出了一种新的子空间聚类框架CSSub(Clustering by Shared Subspaces)。CSSub将候选子空间的选择与聚类分成了两个过程，这使得不同类型的聚类变得更容易。

Introduction

聚类就是将相似的点分成一组，不相似的分到不同组中。聚类是用于数据挖掘和知识发现的一种基础的数据分析技术。目前来看，传统的“全空间聚类”算法在不同子空间中的聚类已变得没有效率，同时也受一些不相关属性的影响，这也使得聚类结果不再可靠。子空间聚类的目标就是发现存在于不同子空间中的类簇。

子空间聚类分子空间搜索和聚类两个过程。为了更好的搜素子空间，子空间聚类算法通常采用启发式的子空间搜素策略（自顶向下，自底向上）。

CSSub的三种独有的特性：
1. CSSub是根据数据点的共享子空间对点进行分组的，通过根据点共享的子空间的数量来度量点之间的相似性来进行聚类。CSSub在检测非冗余/非重叠子空间聚类只运行一次聚类方法。而其他许多子空间聚类算法需要运行聚类算法为了每一个子空间，重复性比较大，会产生较多冗余的子空间聚类。
2. CSSub将候选子空间选择过程从聚类过程中解耦，分成两个独立的过程，这样就无需重复大量的聚类步骤。In contrast, many existing subspace clustering algorithms which have tightly-coupled processes must rely on an anti-monotonicity property to prune the search space.
3. CSSub的运行时间从二次时间降为线性时间。

Related work

子空间聚类的关键任务是找到一种合适的启发式子空间搜素。一种为系统子空间搜素分为自底向上和自顶向下两种，另一种为非系统子空间搜素。

系统子空间搜素：
1.自底向上的方法，自底向上的子空间搜素策略使用了关联规则，搜素从所有一维子空间开始逐渐到高维。这种搜索策略依赖于一种anti-monotonicity property的方式目的是减少搜索的子空间，因为如果一个在低维的候选子空间没有聚类或者因为其他的一些标准过滤掉了，那么它得到映射将不会再高维被遍历。
在这里插入图片描述
基于网格的算法：
CLIQUE：https://blog.csdn.net/zhinanpolang/article/details/84331510
MAFIA：一种CLIQUE的扩展，使用可变宽度的网格密度评估在每一个子空间中，以此来提高聚类的效率和质量。
ENCLUS：https://blog.csdn.net/weixin_33691817/article/details/92927317 该算法与CLIQUE相似，当其使用的是信息熵而不是密度。
基于网格的聚类算法是不能应用在高维数据集上的，在高维上的话会产生指数级的网格。

SSCS is based on the monotonicity property of density-based subspace clustering to tackle the exponential subspace search problem.Instead of performing step-by-step scheme of the Apriori algorithm.

P3C基于网格的算法，依赖于统计学意义进行子空间聚类。

与CLIQUE算法相近的算法还有SUBCLU（基于密度的）和FIRES（一个有效的子空间聚类的通用框架）。

自顶向下
PROCLUS（https://blog.csdn.net/qq_36628501/article/details/97930936）
PreDeCon依赖于DBSCAN的一种自顶向下的聚类算法
DOC混合了自下而上的聚类检测方法和自上而下的迭代改进方法，以减少冗余。它使用一个固定的密度阈值和固定的边长超立方体来识别集群。

非系统子空间搜索
STATPC将具有统计意义的区域的搜索定义为具有基于网格结构的子空间聚类。它将搜索定义为一个优化问题，并提出了一个启发式的解决方案，以避免一个详尽的搜索。
在这里插入图片描述
2.3 Summary
所有子空间聚类对于它们子空间选择过程和聚类过程这两者有较紧密的耦合性，聚类的定义不能轻易的改变。同时软子空间聚类在加权搜索中也具有紧密地耦合性。k-medoids 和 k-means 两种类型的算法是不能检测非球状的簇，也不能处理噪声。而大多数基于密度的算法有超过两个以上的关键参数，并且这些参数在实践中是不易设置的。
本文所关注的是硬子空间和非重叠聚类。且CSSub框架并不依赖于任何子空间搜索策略或优化。由于CSSub基于点共享的子空间的数量进行聚类，因此在聚类阶段不将原始属性用于相似度计算。相比之下，所有其他算法都依赖于原始属性。