聚类分析

本自具足反求诸己

于 2020-01-20 17:30:20 发布

阅读量1.7k

点赞数 1

分类专栏：数据处理

本文链接：https://blog.csdn.net/seacean2000/article/details/104054519

版权

聚类分析是数据挖掘中寻找高数据浓度集合的过程，有助于数据规约和分类。本文介绍了聚类分析的基本概念、数据类型、主要聚类方法（如划分、层次、基于密度和模型的方法）及其典型算法，如k均值、DBSCAN、BIRCH等，并探讨了处理高维数据和约束条件下的聚类策略。此外，还讨论了离群点分析的重要性。

摘要由CSDN通过智能技术生成

总述：聚类分析是寻找数据当中高数据浓度的集合，这些高数据浓度的集合可以辅助后续的数据规约、数据变换、数据分类等操作。这些具体的处理方法需要根据实际的业务数据需要进行配合。

什么是聚类分析
聚类分析中的数据类型
主要聚类方法的分类
划分方法的常用方法
层次方法的常用方法
基于密度的方法
基于网格的方法
基于模型的聚类方法
聚类高维数据
基于约束的聚类分析
离群点分析

1、什么是聚类分析

答：将物理或抽象对象的集合分成相似对象类的过程为聚类。簇是数据对象的集合，这些对象与同一个簇内的对象彼此相似，与其他簇中的对象相异。聚类在某些应用中也称为数据分割，因为聚类根据数据相似性把大型数据集合划分成组。聚类也可以用于离群点检测，离群点是不在任何聚类分组中的点，多用于异常数据业务分析。数据挖掘对聚类分析的要求有：可伸缩性、处理不同类型属性的能力、发现任意形状的聚类、对于决定输入参数的领域知识需求最小、处理带噪声数据的能力、增量聚类和对输入记录的次序不敏感、高维性、基于约束的聚类、可解释性和可用性。聚类是观察式学习，不同于前面分类部分的内容，分类部分的内容属于示例式学习。

2、聚类分析中的数据类型

答：基于内存的聚类算法通常选择数据矩阵、相异度矩阵两种数据结构进行。数据矩阵是表示簇中多个对象，对象可以包含多个维度的信息描述，矩阵的每一个列或者行都是一个对象。相异度矩阵是描述一个簇中所有对象的差异，是一个对称矩阵，对角线上全为0。d（i，j）和d（j，i）是相等的，表示第i个对象和第j的对象的差异度，其值是一个大于0的数值，越接近0就是差异度越小。数据矩阵常称为二模矩阵，相异度举证称为单模矩阵。

区间标度变量是一种粗略线性标度的连续度量。选用的度量单位会影响聚类分析的结果，统一度量单位则需要使用一些数学方法：第一种是采用均值的绝对偏差，Sf=（每个簇内的点距离均值点的距离之和）/（簇内点的个数）；第二种是标准度量，采用z-score值Zif=（簇内第i点距离均值点的距离）/（均值的绝对偏差Sf）。这些方法都是为了度量聚类中关键的条件数据时使用的。二元以上变量的比较除了用多维空间点与点之间的距离公式之外，还可以采用人为规定的加权计算的方式，无论怎么去度量，都需要定义多元变量的比较规则。

对象之间的相异度因为可以规定比较规则，必然可以得到大小，可以按照大小规则进行排序、分类，这与一维的变量没有什么区别。如果无法比较对象之间的大小，那么一定是没有定义比较规则或者忽视了比较规则。