层次聚类算法

文章介绍了层次聚类算法,包括凝聚层次聚类的原理,并通过C++实现对32个中国省会城市的聚类。实验结果显示,全连接算法在地理划分上更接近预期,而单连接算法易形成带状区域。
摘要由CSDN通过智能技术生成

   层次聚类算法是一个应用广泛的算法,小编最近要做对比实验,实现了其中一个版本,为了验证实验效果,结合我国各省会城市之间的距离,对省进行聚类看看效果如何。所有本文从3部分来介绍,首先简介层次聚类算法,然后讲解其实现原理,最后结合一个实例进行分析对比。


1. 层次聚类

层次聚类算法分成凝聚的和分裂的两种,取决于层次分解是以自底向上(合并)还是以自顶向下(分裂)方式形成。

凝聚的层次聚类方法使用自底向上的策略,开始时每个对象自己是独立的类(N个),然后不断合并成越来越大的类,直到所有的对象都在一个类中,或者满足某个终止条件。在合并过程中是找出两个最近的类让他们合并形成一个类,所以最多进行N次迭代就将所有对象合并到一起了。分裂的层次聚类方法使用自顶向下的策略,开始时所有对象都在一个类中(1个),然后不断的划分成更小的类,直到最小的类都足够凝聚或者只包含一个对象。

层次聚类算法的理论基础包括以下几个方面的内容: 1. 自底向上和自顶向下的层次分解:层次聚类算法可以根据层次分解的顺序分为自底向上和自顶向下两种方法。自底向上方法从每个个体开始,逐步合并相似的个体形成一个大的类。自顶向下方法则从一个包含所有个体的大类开始,逐步将其分解为较小的类,直到达到所需的类数。 2. Linkage方法:在层次聚类算法中,需要根据Linkage方法来判断个体或类之间的相似度。常用的Linkage方法包括最短距离法、最长距离法、中间距离法和类平均法等。其中,类平均法被认为是最常用和最好用的方法,因为它具有良好的单调性并且在空间扩张或浓缩程度上适中。 3. 混合数据类型层次聚类算法:除了处理数值型数据外,层次聚类算法还可以处理字符型数据和混合型数据。通过定义新的个体间不可区分度、类间不可区分度和聚类结果的综合近似精度等概念,可以使用新的混合数据类型层次聚类算法处理这些数据类型。这个算法的处理能力更加全面,可以应对更多类型的数据。 4. 与其他聚类方法的结合:为了弥补层次聚类算法在分解和合并方面的不足,常常需要与其他聚类方法相结合,如循环定位。这种结合可以进一步提高聚类的准确性和效果。 综上所述,层次聚类算法的理论基础包括自底向上和自顶向下的层次分解、Linkage方法、混合数据类型层次聚类算法以及与其他聚类方法的结合。这些理论基础为层次聚类算法的应用提供了指导和支持。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值