层次聚类算法

最新推荐文章于 2024-07-18 17:00:48 发布

绿岛小微米

最新推荐文章于 2024-07-18 17:00:48 发布

阅读量7.2k

点赞数

分类专栏：数学理论

数学理论专栏收录该内容

31 篇文章 0 订阅

订阅专栏

层次聚类的基本概念
层次聚类方法是古老而且常用的聚类方法。层次聚类方法又有两种产生层次聚类的基本方法。
凝聚的：该方法是自底向上的方法，初始每个对象看做一个簇，每一步合并最相近的簇，最终形成一个簇。
分类的：该方法是自顶向下的方法，从包含的所有点的簇开始，每一步分裂一个簇，知道仅剩下单点的簇。

2 簇之间的邻近性
在凝聚的层次聚类方法中，需要定义簇之间的相近性。有许多凝聚层次的聚类技术，本文中介绍单链、全链、组平均。

单链:
该方法中两个簇的邻近度定义为两个不同簇中任意两点之间的最短距离。单链技术擅长处理非椭圆形的簇，但是对噪音和离群点很敏感。
两个簇之间的相似度计算公式为：

dist({m1,m2},{m3,m4})=min(dist(m1,m3),dist(m1,m4),dist(m2,m3),dist(m2,m4))

全链:
该方法中两个簇的邻近度定义为两个不同簇中任意两点之间的最长距离。单链技术擅长处理圆形的簇，但是对噪音和离群点不太敏感。
两个簇之间的相似度计算公式为：
dist({m1,m2},{m3,m4})=max(dist(m1,m3),dist(m1,m4),dist(m2,m3),dist(m2,m4))

组平均:
该方法中两个簇的邻近度定义为两个不同簇中任意两点之间的平均距离。该方法是位于单链和全链之间的这种方法。
两个簇之间的相似度计算公式为：

dist({m1,m2},{m3,m4})=(dist(m1,m3)+dist(m1,m4)+dist(m2,m3)+dist(m2,m4))/4

AGNES算法

AGNES(Agglomerative Nesting) 是凝聚的层次聚类算法，如果簇C1中的一个对象和簇C2中的一个对象之间的距离是所有属于不同簇的对象间欧式距离中最小的，C1和C2可能被合并。这是一种单连接方法，其每个簇可以被簇中的所有对象代表，两个簇之间的相似度由这两个簇中距离最近的数据点对的相似度来确定。

算法描述：

输入：包含n个对象的数据库，终止条件簇的数目k

输出：k个簇

（1）将每个对象当成一个初始簇

（2） Repeat

（3）根据两个簇中最近的数据点找到最近的两个簇

（4）合并两个簇，生成新的簇的集合

（5） Until达到定义的簇的数目

算法性能：

（1）简单，但遇到合并点选择困难的情况。

（2）一旦一组对象被合并，不能撤销

（3）算法的复杂度为O(n的平方)，不适合大数据集计算