聚类分析

本文详细介绍了聚类分析的三种主要方法:划分聚类(K均值)、层次聚类(凝聚和分裂)以及基于密度的聚类(DBSCAN)。K均值简单易懂,但对初始值敏感;层次聚类能发现类的层次关系,但计算复杂度高;DBSCAN能发现任意形状的簇,但对高维数据处理困难。理解这些算法的优缺点有助于选择合适的聚类方法。
摘要由CSDN通过智能技术生成

 概要

  1. 聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性(同质性)越大,组间差别越大,聚类就越好。

 

 

应用场景:

   聚类。


聚类分析的3种大类和其代表技术:

  1. 划分聚类法。K均值。是基于原型的、划分的聚类技术。它试图发现用户指定个数K的簇(由质心代表)。
  2. 层次聚类。凝聚的层次聚类。开始,每个点作为一个单点簇;然后,重复地合并两个最靠近的簇,直到产生单个的、包含所有点的簇。
  3. 基于密度的聚类。DBSCAN。是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。低密度区域中的点被视为噪声而忽略,因此DBSCAN不产生完全聚类。

 

 

层次聚类的优缺点

优点

  1. 距离和规则的相似度容易定义限制少
  2. 不需要预先指定聚类数;
  3. 可以发现类的层次关系;
  4. 可以聚类成其他形状。

 

缺点:

  1. 计算复杂度太高;
  2. 奇异值也能产生很大影响;
  3. 算法很可能聚类成链状。

 

 

DBSCAN的优缺点

优点:

  1. 不需要事先知道要形成的簇的数量。
  2. 可以发现任意形状的簇类。
  3. 对噪声点不敏感。
  4. 对样本点的顺序不敏感。

 

缺点:

  1. 簇的密度变化太大时,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值