聚类分析

最新推荐文章于 2021-04-21 19:44:27 发布

华仔宝宝

最新推荐文章于 2021-04-21 19:44:27 发布

阅读量850

点赞数

分类专栏：数据分析算法

本文链接：https://blog.csdn.net/hua_chang/article/details/105093313

版权

聚类分析是一种探索性数据分析，用于将对象分为相似组。层次聚类包括自底向上和自顶向下的策略，而k-means是动态聚类的一种，通过迭代寻找类的中心。聚类在数据挖掘中占有重要地位，可用于数据分布分析和异常值检测，但数据清洗过程需谨慎处理，以免影响结果。

摘要由CSDN通过智能技术生成

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。
聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。
从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法（如分类和定性归纳算法）的预处理步骤。
聚类方法：

一、层次聚类

层次聚类试图在不同层次对数据集进行划分，从而形成树形的聚类结构。数据集划分可采用“自底向上”的聚合策略，也可采用“自顶向下”的分拆策略。
（1）距离计算方法：
不管采用哪种方式，一个关键的问题就是距离的定义，在聚类时常见的距离定义方法有：Euclide距离、Chebyshev距离、绝对值距离（曼哈顿距离）、 Lance距离、 Minkowski距离、定性变量距离。
在这里插入图片描述
其中p是一个变参数。当p=1时，就是曼哈顿距离，当p=2时，就是欧氏距离，当p→∞时，就是切比雪夫距离。
闵氏距离的缺点主要有两个：(1)将各个分量的量纲(scale)&#