聚类分析

聚类分析是一种探索性数据分析,用于将对象分为相似组。层次聚类包括自底向上和自顶向下的策略,而k-means是动态聚类的一种,通过迭代寻找类的中心。聚类在数据挖掘中占有重要地位,可用于数据分布分析和异常值检测,但数据清洗过程需谨慎处理,以免影响结果。
摘要由CSDN通过智能技术生成

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
聚类方法:

一、层次聚类

层次聚类试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集划分可采用“自底向上”的聚合策略,也可采用“自顶向下”的分拆策略。
(1)距离计算方法:
不管采用哪种方式,一个关键的问题就是距离的定义,在聚类时常见的距离定义方法有:Euclide距离、Chebyshev距离、绝对值距离(曼哈顿距离)、 Lance距离、 Minkowski距离、 定性变量距离。
在这里插入图片描述
其中p是一个变参数。当p=1时,就是曼哈顿距离,当p=2时,就是欧氏距离,当p→∞时,就是切比雪夫距离。
闵氏距离的缺点主要有两个:(1)将各个分量的量纲(scale)&#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值