使用Orange进行数据挖掘之聚类分析(1)------层次聚类

最新推荐文章于 2023-07-19 17:21:42 发布

iteye_4515

最新推荐文章于 2023-07-19 17:21:42 发布

阅读量3.7k

点赞数

文章标签：人工智能数据结构与算法

本文介绍了层次聚类的基本概念，包括凝聚层次聚类方法和簇之间的邻近性，如单链、全链和组平均。通过Orange数据挖掘工具，展示了如何使用脚本和可视化工具进行层次聚类分析，特别强调了在iris数据集上的应用。

摘要由CSDN通过智能技术生成

一、层次聚类

1 层次聚类的基本概念

层次聚类方法是古老而且常用的聚类方法。层次聚类方法又有两种产生层次聚类的基本方法。

凝聚的：该方法是自底向上的方法，初始每个对象看做一个簇，每一步合并最相近的簇，最终形成一个簇。
分类的：该方法是自顶向下的方法，从包含的所有点的簇开始，每一步分裂一个簇，知道仅剩下单点的簇。

本文主要关注凝聚的层次聚类方法。

2 簇之间的邻近性

在凝聚的层次聚类方法中，需要定义簇之间的相近性。有许多凝聚层次的聚类技术，本文中介绍单链、全链、组平均。

单链:

该方法中两个簇的邻近度定义为两个不同簇中任意两点之间的最短距离。单链技术擅长处理非椭圆形的簇，但是对噪音和离群点很敏感。

两个簇之间的相似度计算公式为：

dist({m1,m2},{m3,m4})=min(dist(m1,m3),dist(m1,m4),dist(m2,m3),dist(m2,m4))

全链:

该方法中两个簇的邻近度定义为两个不同簇中任意两点之间的最长距离。单链技术擅长处理圆形的簇，但是对噪音和离群点不太敏感。

两个簇之间的相似度计算公式为：

dist({m1,m2},{m3,m4})=max(dist(m1,m3),dist(m1,m4),dist(m2,m3),dist(m2,m4))

组平均:

该方法中两个簇的邻近度定义为两个不同簇中任意两点之间的平均距离。该方法是位于单链和全链之间的这种方法。

两个簇之间的相似度计算公式为：

dist({m1,m2},{m3,m4})=(dist(m1,m3)+dist(m1,m4)

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
使用Orange进行数据挖掘之聚类分析(1)------层次聚类

一、层次聚类1 层次聚类的基本概念层次聚类方法是古老而且常用的聚类方法。层次聚类方法又有两种产生层次聚类的基本方法。凝聚的：该方法是自底向上的方法，初始每个对象看做一个簇，每一步合并最相近的簇，最终形成一个簇。分类的：该方法是自顶向下的方法，从包含的所有点的簇开始，每一步分裂一个簇，知道仅剩下单点的簇。本文主要关注凝聚的层次聚类方法。2 簇之间的邻近性在凝聚的层次聚类...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。