概述
尽管基于划分的聚类算法满足把对象划分成一些互斥的组群的基本聚类要求,但是在某些情况下,我们希望把数据划分成不同层次的组群,如层次。层次聚类方法(hierarchical clustering method)将数据对象组成层次结构或簇的“树”。
对于数据汇总和可视化,用层次结构的形式表示数据对象是有用的。我们可以很容易地对组织在层次结构中的数据进行汇总或特征化。
这次,我们讨论层次聚类算法。我们从凝聚和分裂层次聚类的讨论开始。凝聚和分裂层次聚类分别使用自底向上和自顶向下策略把对象组织到层次结构中。凝聚方法从每个对象都作为一个簇开始,迭代地合并,形成更大的簇。与此相反,分裂的方法开始令所有给定的对象形成一个簇,迭代地分裂,形成较小的簇。
层次聚类的算法可能在合并或分裂点的选择方法上遇到困难。这种决定是至关重要的,因为一旦对象的组群被合并或被分裂,则下一步处理将在新产生的簇上进行。它既不会撤销先前所做的工作,也不会在簇之间进行对象交换。因此,如果合并或者分裂选择不当,则可能导致低质量的簇。此外,这种方法不具有很好的可伸缩性,因为每次合并或分裂的决定都需要考察和评估许多对象或簇。
一种提高层次聚类质量的有希望的方向是集成层次聚类与其他技术,形成多阶段聚类。我们介绍两种这样的方法,即BIRCH和Chameleon。BIRCH从使用树结构分层划分对象开始,其中树叶和低层结点可以看作“微簇”,依赖于分辨率的尺度。然后,它使用其他聚类算法,在这些微簇上进行宏聚类。Chameleon探索层次聚类中的动态建模。
存在多种方法对层次聚类算法进行分类。例如,他们可分为算法方法、概率方法和贝叶斯方法。凝聚、分裂和多阶段方法都是算法的,即他
读书笔记 -- 008_数据挖掘_聚类_基于层次的方法
最新推荐文章于 2022-07-21 09:52:09 发布