高维数据的聚类算法

本文介绍了子空间聚类在高维数据中的重要性,详细讲解了硬子空间聚类的自底向上和自顶向下算法,如CLIQUE和PROCLUS,以及软子空间聚类的模糊c均值(FCM)、模糊加权子空间聚类(FWSC)和熵加权子空间聚类(EWSC),强调了模糊加权指数和熵加权指数对算法效果的影响。
摘要由CSDN通过智能技术生成

      实验室周汇报,刚好轮到讲子空间聚类,上网查了一下,发现文章特别少,于是决定把我这几天查到的资料共享一下。中间部分是我自己的理解,文章后面放了ppt的pdf版本。

下面就开始了.....

      聚类算法是人工智能、数据挖掘等领域的关键技术之一,有着广泛的应用。随着大数据时代的到来,产生了大量不一致数据、混合类型数据和部分值缺失的数据等。典型的聚类算法对这些数据集聚类时遇到难题。例如在高维稀疏数据中,簇类只存在部分属性构成的子空间中,这些数据集从全维空间来讲根本不存在簇类。一般来说,样本之间的差异往往是由若干个关键的特征所引起的,如果能恰当的找出这些重要特征,对建立合理的聚类或分类模型都将起到积极的作用。因此提出了子空间聚类。

      子空间聚类算法是指把数据的原始特征空间分割为不同的特征子集,从不同的子空间角度考察各个数据簇聚类划分的意义,同时在聚类过程中为每个数据簇寻找到相应的特征子空间。总得来说,子空间聚类的任务主要有两个:1)发现可以聚类的子空间(属性子集);2)在相应的子空间上聚类。子空间聚类算法实际上是将传统的特征选择技术和聚类算法进行结合,在对数据样本聚类划分的过程中,得到各个数据簇对应的特征子集或者特征权重。根据目前的研究结果,子空间聚类可以分为硬子空间聚类和软子空间聚类两种形式。两者之间的区别是什么呢,下面进行解释。

       硬子空间聚类算法能识别不同类所在的精确子空间,与硬子空间聚类不同的是,软子空间聚类不需要为每一个类找到精确的子空间,而是给每个类的特征赋予不同的权值,利用这些权值来衡量每维特征在不同类中的贡献,即软子空间聚类为每类找到一个软子空间。简单地说,硬子空间聚类中,一个属性必须且只能属于一个子空间,聚类在这些子空间中进行,属性在每个子空间中的权值要么是0,要么是1。软子空间聚类是在全维空间对整个数据集聚类,每个子空间包含所有属性,但是每个属性被赋予[0,1]不同的权值,属性权值描述了属性与对应子空间之间的关联程度,权值越大说明该属性在这个子空间越重要,与该子空间的关联性也就越强。

      更具体而言,根据搜索方式的不同,硬子空间聚类方法又可分为自底向上的子空间搜索算法和自顶向下的子空间搜索算法;对于软子空间聚类方法而言,根据特征加权系数不确定性表示方式的不同,可以分为模糊加权软子空间聚类和熵加权软子空间聚类。

      首先来介绍一下硬子空间聚类中的自底向上子空间聚类算法。

     自底向上子空间聚类算法一般都是基于网格密度,采用自底向上搜索策略进行的子空间聚类算法。它先将原始特征空间分为若干个网格,再以落到某网格中样本点的概率表示该子空间的密度情况。对于密度超过一定阈值的子空间作为密集单元进行保留,而对非密集子空间进行舍弃。经典的自底向上子空间聚类方法有最早的静态网格聚类算法CLIQUE。CLIQUE算法采用了基于网格和密度的方法。首先对每个属性进行等分,整个数据空间就被分成一个超长方体集合,对每个单元进行数据点计数,大于某个阈值的单元称稠密单元,然后对稠密单元进行连接构成类。算法按如下:

优点:
CLIQUE算法可自动发现最高维的子空间。CLIQUE对元组的输入顺序不敏感,无需假设任何规范的数据分布。算法随输入数据的大小线性地

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值