总述:聚类分析是寻找数据当中高数据浓度的集合,这些高数据浓度的集合可以辅助后续的数据规约、数据变换、数据分类等操作。这些具体的处理方法需要根据实际的业务数据需要进行配合。
- 什么是聚类分析
- 聚类分析中的数据类型
- 主要聚类方法的分类
- 划分方法的常用方法
- 层次方法的常用方法
- 基于密度的方法
- 基于网格的方法
- 基于模型的聚类方法
- 聚类高维数据
- 基于约束的聚类分析
- 离群点分析
1、什么是聚类分析
答:将物理或抽象对象的集合分成相似对象类的过程为聚类。簇是数据对象的集合,这些对象与同一个簇内的对象彼此相似,与其他簇中的对象相异。聚类在某些应用中也称为数据分割,因为聚类根据数据相似性把大型数据集合划分成组。聚类也可以用于离群点检测,离群点是不在任何聚类分组中的点,多用于异常数据业务分析。数据挖掘对聚类分析的要求有:可伸缩性、处理不同类型属性的能力、发现任意形状的聚类、对于决定输入参数的领域知识需求最小、处理带噪声数据的能力、增量聚类和对输入记录的次序不敏感、高维性、基于约束的聚类、可解释性和可用性。聚类是观察式学习,不同于前面分类部分的内容,分类部分的内容属于示例式学习。
2、聚类分析中的数据类型
答:基于内存的聚类算法通常选择数据矩阵、相异度矩阵两种数据结构进行。数据矩阵是表示簇中多个对象,对象可以包含多个维度的信息描述,矩阵的每一个列或者行都是一个对象。相异度矩阵是描述一个簇中所有对象的差异,是一个对称矩阵,对角线上全为0。d(i,j)和d(j,i)是相等的,表示第i个对象和第j的对象的差异度,其值是一个大于0的数值,越接近0就是差异度越小。数据矩阵常称为二模矩阵,相异度举证称为单模矩阵。
区间标度变量是一种粗略线性标度的连续度量。选用的度量单位会影响聚类分析的结果,统一度量单位则需要使用一些数学方法:第一种是采用均值的绝对偏差,Sf=(每个簇内的点距离均值点的距离之和)/(簇内点的个数);第二种是标准度量,采用z-score值Zif=(簇内第i点距离均值点的距离)/(均值的绝对偏差Sf)。这些方法都是为了度量聚类中关键的条件数据时使用的。二元以上变量的比较除了用多维空间点与点之间的距离公式之外,还可以采用人为规定的加权计算的方式,无论怎么去度量,都需要定义多元变量的比较规则。
对象之间的相异度因为可以规定比较规则,必然可以得到大小,可以按照大小规则进行排序、分类,这与一维的变量没有什么区别。如果无法比较对象之间的大小,那么一定是没有定义比较规则或者忽视了比较规则。
<