聚类分析综述

转载:http://www.idataskys.com/%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/

聚类分析是对一些包含很多属性对象的集合分成相似的类或者簇的这一过程。而簇也是对象的集合,但是这些对象具有高度的相似性,与其他簇中的对象差异较大。但是聚类和分类有一定的区别,聚类是在未知对象所在目标类的情况下进行分类,分类是每个对象已经有了目标类标号,因此聚类是无监督学习。

先说下聚类的一些应用,在目前聚类已经大量在数据挖掘和机器学习等等领域运用。在用户细分,市场细分,模式识别,图像处理等等领域均被应用。在商务中研究用户特征,用户行为特征等等普遍应用。在数据处理中,可以作为数据的分割,离群点检测等等。

聚类分析中数据的样本是一个数据矩阵,即N(N个对象)×P(P是对象的维度)。数据矩阵的表示如下:

 图片1

接着对数据矩阵进行相似度或者相异度度量,形成N×N的邻接矩阵,采用距离或者其他方式度量对象之间的相似度:

 图片2

其中越接近0表示对象之间相似度越大。

聚类分析中度量对象之间的相似性是非常重要的,出于目的不同或者聚类方式不同采用度量相似性的方法不同。下面主要介绍关于距离和相似性度量的方法:

一、距离的度量

(1)欧几里得距离

 图片3

其中i,j表示不同的对象,p为对象的属性标识。而欧几里得距离可以扩展为加权的欧几里得距离,权重的意义是属性的重要性。如下:

 图片4

(2)曼哈顿距离

 图片5

(3)闵可夫斯基距离,该方法是欧几里得距离和曼哈顿距离的推广:

 图片13

(4)切比雪夫距离(Chebyshev Distance),是P趋于无穷大时的闵可夫斯基距离:

 图片6

二、相似性的度量

(1)余弦相似度

 图片7

(2)Tanimoto相似系数

 图片8

上面主要考虑到了对象作为向量是的长度问题,当两个对象向量的长度约接近,相似性会越大。而余弦相似度无论对象向量的长度如何变化其相似性不会发生任何的改变。

(3)皮尔森相关系数

即相关分析中的相关系数r

(4)Jaccard相似系数

Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。如果比较图片10图片11Jaccard相似系数,只比较和中相同的个数,公式如下:

 图片9

综合,关于上面距离和相似性的度量,均可以进行灵活运用,对这些度量方式进行简单的调整或者修改,使得在运用时更加的恰当,更加符合运用时的背景并具有很好的作用或者意义。

关于聚类分析,下面不得不说不同的聚类算法了,聚类算法也分为很多类别的算法,主要的类别有:

A、基于划分的算法:将这N个对象划分成不同的类别,每个划分便是一个类别,如有:K均值算法,K个中心点算法。缺点:对于大型数据效率极低,而且只能发现球状的簇。

B、基于层次的算法:对给定对象数据集的层次分析,层次的方法可以是凝聚或者分裂,如:birch算法,Chameleon方法等。缺点:一个步骤完成后,便不能更改,错误的分类不能进行修正。

C、基于密度的算法:领域中的密度(对象的数目)超过某个阈值就继续聚类。如:Dbscan算法,Optics算法等等。

D、基于网格的算法:将对象空间划分为有限的数目单元,形成一个网格结构。如:sting算法。

E、基于模型的算法:此方法是为簇假设一个模型,寻找给定模型中数据的最佳拟合,特别考虑离群点和噪声的影响。如EM最大期望算法,SOM基于神经网络的一种算法。

这么多的聚类算法,怎么进行选择聚类算法呢?聚类算法的选择也是一大问题,其主要取决于以下几个方面:数据的类型;应用时的分类目标;聚类的速度快慢等等。


  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值