Grouping points by shared subspaces for effective subspace clustering

Abstract

聚类可能存在于多维数据集的不同子空间中。传统的全空间聚类算法对于这个问题是存在局限的。目前的子空间聚类算法都采用在给定的特征子空间来测量两点之间的相似性这一方法进行聚类。但这种方式在子空间的选择和聚类过程中存在较高的耦合性。为此,我们提出了一种新的子空间聚类框架CSSub(Clustering by Shared Subspaces)。CSSub将候选子空间的选择与聚类分成了两个过程,这使得不同类型的聚类变得更容易。

Introduction

聚类就是将相似的点分成一组,不相似的分到不同组中。聚类是用于数据挖掘和知识发现的一种基础的数据分析技术。目前来看,传统的“全空间聚类”算法在不同子空间中的聚类已变得没有效率,同时也受一些不相关属性的影响,这也使得聚类结果不再可靠。子空间聚类的目标就是发现存在于不同子空间中的类簇。

子空间聚类分子空间搜索和聚类两个过程。为了更好的搜素子空间,子空间聚类算法通常采用启发式的子空间搜素策略(自 顶向下,自底向上)。

CSSub的三种独有的特性:
1. CSSub是根据数据点的共享子空间对点进行分组的,通过根据点共享的子空间的数量来度量点之间的相似性来进行聚 类。CSSub在检测非冗余/非重叠子空间聚类只运行一次聚类方法。而其他许多子空间聚类算法需要运行聚类算法为了每一个子空间,重复性比较大,会产生较多冗余的子空间聚类。
2. CSSub将候选子空间选择过程从聚类过程中解耦,分成两个独立的过程,这样就无需重复大量的聚类步骤。In contrast, many existing subspace clustering algorithms which have tightly-coupled processes must rely on an anti-monotonicity property to prune the search space.
3. CSSub的运行时间从二次时间降为线性时间。

Related work

子空间聚类的关键任务是找到一种合适的启发式子空间搜素。一种为系统子空间搜素分为自底向上和自顶向下两种,另一种为非系统子空间搜素。

系统子空间搜素:
1.自底向上的方法,自底向上的子空间搜素策略使用了关联规则,搜素从所有一维子空间开始逐渐到高维。这种搜索策略依赖于一种anti-monotonicity property的方式目的是减少搜索的子空间,因为如果一个在低维的候选子空间没有聚类或者因为其他的一些标准过滤掉了,那么它得到映射将不会再高维被遍历。
在这里插入图片描述
基于网格的算法:
CLIQUE:https://blog.csdn.net/zhinanpolang/article/details/84331510
MAFIA:一种CLIQUE的扩展,使用可变宽度的网格密度评估在每一个子空间中,以此来提高聚类的效率和质量。
ENCLUS:https://blog.csdn.net/weixin_33691817/article/details/92927317 该算法与CLIQUE相似,当其使用的是信息熵而不是密度。
基于网格的聚类算法是不能应用在高维数据集上的,在高维上的话会产生指数级的网格。

SSCS is based on the monotonicity property of density-based subspace clustering to tackle the exponential subspace search problem.Instead of performing step-by-step scheme of the Apriori algorithm.

P3C基于网格的算法,依赖于统计学意义进行子空间聚类。

与CLIQUE算法相近的算法还有SUBCLU(基于密度的)和FIRES(一个有效的子空间聚类的通用框架)。

自顶向下
PROCLUS(https://blog.csdn.net/qq_36628501/article/details/97930936)
PreDeCon依赖于DBSCAN的一种自顶向下的聚类算法
DOC混合了自下而上的聚类检测方法和自上而下的迭代改进方法,以减少冗余。它使用一个固定的密度阈值和固定的边长超立方体来识别集群。

非系统子空间搜索
STATPC将具有统计意义的区域的搜索定义为具有基于网格结构的子空间聚类。它将搜索定义为一个优化问题,并提出了一个启发式的解决方案,以避免一个详尽的搜索。
在这里插入图片描述
2.3 Summary
所有子空间聚类对于它们子空间选择过程和聚类过程这两者有较紧密的耦合性,聚类的定义不能轻易的改变。同时软子空间聚类在加权搜索中也具有紧密地耦合性。k-medoids 和 k-means 两种类型的算法是不能检测非球状的簇,也不能处理噪声。而大多数基于密度的算法有超过两个以上的关键参数,并且这些参数在实践中是不易设置的。
本文所关注的是硬子空间和非重叠聚类。且CSSub框架并不依赖于任何子空间搜索策略或优化。由于CSSub基于点共享的子空间的数量进行聚类,因此在聚类阶段不将原始属性用于相似度计算。相比之下,所有其他算法都依赖于原始属性。

3.Key weaknesses of existing bottom-up subspace clustering algorithms

This approach has two weakness:
1. 两个过程之间有较高的耦合性,在搜索过程中会产生许多冗余的子空间聚类。
2. 为了使用反单调性来减小搜索空间,需要设置单一的密度阈值。

4. Clustering by shared subspaces

D表示一个d个属性的n个点的数据集,用n×d的矩阵表示。S表示子空间的集合,s表示集合中的元素
在这里插入图片描述
在这里插入图片描述
这个公式是Jaccard相似度,可以解释为两个α-Core点在共享子空间中的概率越高,这两点就越相似

在这里插入图片描述
每个聚类的阈值是不同的,且这个阈值是可以自动确定的。

在这里插入图片描述
Scoring function
在这里插入图片描述

5. Algorithms in CSSub

在这里插入图片描述
在这里插入图片描述
CSSub 只需手动设置一个参数k。

6. Empirical evaluation

实验都比较常规,选了七个有代表性的非重叠子空间聚类算法进行对比实验,一个自顶向下PROCLUS,一个自底向上P3
C和五个软子空间聚类算法LAC,EWKM,FSC,ESSC和FG-k-means。用到三个合成数据集(2T,S1500 和 D50)以及12个真实数据集。

7. Discussion

CSSub在具有不同无关属性的子空间集群的中低维数据集上是有效的,同时具有良好的抗噪表现。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值