概要:
- 聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性(同质性)越大,组间差别越大,聚类就越好。
应用场景:
聚类。
聚类分析的3种大类和其代表技术:
- 划分聚类法。K均值。是基于原型的、划分的聚类技术。它试图发现用户指定个数K的簇(由质心代表)。
- 层次聚类。凝聚的层次聚类。开始,每个点作为一个单点簇;然后,重复地合并两个最靠近的簇,直到产生单个的、包含所有点的簇。
- 基于密度的聚类。DBSCAN。是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。低密度区域中的点被视为噪声而忽略,因此DBSCAN不产生完全聚类。
层次聚类的优缺点:
优点:
- 距离和规则的相似度容易定义,限制少;
- 不需要预先指定聚类数;
- 可以发现类的层次关系;
- 可以聚类成其他形状。
缺点:
- 计算复杂度太高;
- 奇异值也能产生很大影响;
- 算法很可能聚类成链状。
DBSCAN的优缺点:
优点:
- 不需要事先知道要形成的簇的数量。
- 可以发现任意形状的簇类。
- 对噪声点不敏感。
- 对样本点的顺序不敏感。
缺点:
- 簇的密度变化太大时,