数据挖掘聚类算法概述（有待完善）_聚类将数据分成多个组-CSDN博客

本文链接：https://blog.csdn.net/Phoenix_tgd/article/details/82849439

本文概述了聚类的概念，聚类分析的应用场景，包括客户分类、文本分类等，并详细介绍了聚类依据的距离和基本聚类方法，如划分聚类、层次聚类、基于密度的聚类和基于网格的聚类。同时，文章还讨论了聚类评估的重要性，包括聚类趋势估计、确定簇数的方法以及聚类质量的测定。

摘要由CSDN通过智能技术生成

聚类是一个把数据对象划分为多个簇或者多个组的过程，使得一个簇内的对象具有很高的相似性，但与其他簇内的对象不相似。聚类算法属于无监督学习

聚类分析是一个把数据对象划分为子集的过程，每个子集是一个簇，使得簇中的对象彼此相似，但与其他簇中的对象不相似，由聚类分析产生簇的集合叫做聚类。至关重要的区别是，聚类可以自动地发现这些分组是聚类分析的突出优点。

1：客户分类

2：文本分类

3：基因识别

4：空间数据处理

5：卫星图片识别

6：数据分析，统计学，机器学习，空间数据库技术，生物学和市场学

聚类分析是研究对样本或变量的聚类，在进行聚类的时候，方法很多，而这些方法的选择往往与变量的类型是有关的，由于数据的来源以及测量方法的不同，变量大致可以分为两类：

1）定量变量：可就是通常所说的连续变量

2）定性变量：这些量并非真有数量上的变化，而只有性质上的差异，这些变量可以分为有序变量和名义变量

对于连续型变量，有一些典型的距离定义：