使用Orange进行数据挖掘之聚类分析(1)------层次聚类

本文介绍了层次聚类的基本概念,包括凝聚层次聚类方法和簇之间的邻近性,如单链、全链和组平均。通过Orange数据挖掘工具,展示了如何使用脚本和可视化工具进行层次聚类分析,特别强调了在iris数据集上的应用。
摘要由CSDN通过智能技术生成

一、层次聚类

1 层次聚类的基本概念

层次聚类方法是古老而且常用的聚类方法。层次聚类方法又有两种产生层次聚类的基本方法。

  1. 凝聚的:该方法是自底向上的方法,初始每个对象看做一个簇,每一步合并最相近的簇,最终形成一个簇。
  2. 分类的:该方法是自顶向下的方法,从包含的所有点的簇开始,每一步分裂一个簇,知道仅剩下单点的簇。

本文主要关注凝聚的层次聚类方法。

2 簇之间的邻近性

在凝聚的层次聚类方法中,需要定义簇之间的相近性。有许多凝聚层次的聚类技术,本文中介绍单链、全链、组平均。

单链:

该方法中两个簇的邻近度定义为两个不同簇中任意两点之间的最短距离。单链技术擅长处理非椭圆形的簇,但是对噪音和离群点很敏感。

两个簇之间的相似度计算公式为:

dist({m1,m2},{m3,m4})=min(dist(m1,m3),dist(m1,m4),dist(m2,m3),dist(m2,m4))

全链:

该方法中两个簇的邻近度定义为两个不同簇中任意两点之间的最长距离。单链技术擅长处理圆形的簇,但是对噪音和离群点不太敏感。

两个簇之间的相似度计算公式为:

dist({m1,m2},{m3,m4})=max(dist(m1,m3),dist(m1,m4),dist(m2,m3),dist(m2,m4))

组平均:

该方法中两个簇的邻近度定义为两个不同簇中任意两点之间的平均距离。该方法是位于单链和全链之间的这种方法。

两个簇之间的相似度计算公式为:

dist({m1,m2},{m3,m4})=(dist(m1,m3)+dist(m1,m4)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值