聚类分析

聚类分析是数据挖掘中寻找高数据浓度集合的过程,有助于数据规约和分类。本文介绍了聚类分析的基本概念、数据类型、主要聚类方法(如划分、层次、基于密度和模型的方法)及其典型算法,如k均值、DBSCAN、BIRCH等,并探讨了处理高维数据和约束条件下的聚类策略。此外,还讨论了离群点分析的重要性。
摘要由CSDN通过智能技术生成

总述:聚类分析是寻找数据当中高数据浓度的集合,这些高数据浓度的集合可以辅助后续的数据规约、数据变换、数据分类等操作。这些具体的处理方法需要根据实际的业务数据需要进行配合。

 

  1. 什么是聚类分析
  2. 聚类分析中的数据类型
  3. 主要聚类方法的分类
  4. 划分方法的常用方法
  5. 层次方法的常用方法
  6. 基于密度的方法
  7. 基于网格的方法
  8. 基于模型的聚类方法
  9. 聚类高维数据
  10. 基于约束的聚类分析
  11. 离群点分析

 

 

1、什么是聚类分析

答:将物理或抽象对象的集合分成相似对象类的过程为聚类。簇是数据对象的集合,这些对象与同一个簇内的对象彼此相似,与其他簇中的对象相异。聚类在某些应用中也称为数据分割,因为聚类根据数据相似性把大型数据集合划分成组。聚类也可以用于离群点检测,离群点是不在任何聚类分组中的点,多用于异常数据业务分析。数据挖掘对聚类分析的要求有:可伸缩性、处理不同类型属性的能力、发现任意形状的聚类、对于决定输入参数的领域知识需求最小、处理带噪声数据的能力、增量聚类和对输入记录的次序不敏感、高维性、基于约束的聚类、可解释性和可用性。聚类是观察式学习,不同于前面分类部分的内容,分类部分的内容属于示例式学习。

2、聚类分析中的数据类型

答:基于内存的聚类算法通常选择数据矩阵、相异度矩阵两种数据结构进行。数据矩阵是表示簇中多个对象,对象可以包含多个维度的信息描述,矩阵的每一个列或者行都是一个对象。相异度矩阵是描述一个簇中所有对象的差异,是一个对称矩阵,对角线上全为0。d(i,j)和d(j,i)是相等的,表示第i个对象和第j的对象的差异度,其值是一个大于0的数值,越接近0就是差异度越小。数据矩阵常称为二模矩阵,相异度举证称为单模矩阵。

区间标度变量是一种粗略线性标度的连续度量。选用的度量单位会影响聚类分析的结果,统一度量单位则需要使用一些数学方法:第一种是采用均值的绝对偏差,Sf=(每个簇内的点距离均值点的距离之和)/(簇内点的个数);第二种是标准度量,采用z-score值Zif=(簇内第i点距离均值点的距离)/(均值的绝对偏差Sf)。这些方法都是为了度量聚类中关键的条件数据时使用的。二元以上变量的比较除了用多维空间点与点之间的距离公式之外,还可以采用人为规定的加权计算的方式,无论怎么去度量,都需要定义多元变量的比较规则。

对象之间的相异度因为可以规定比较规则,必然可以得到大小,可以按照大小规则进行排序、分类,这与一维的变量没有什么区别。如果无法比较对象之间的大小,那么一定是没有定义比较规则或者忽视了比较规则。

 <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值