算法进阶--层次聚类

最新推荐文章于 2024-07-22 18:52:16 发布

WslWslYYX

最新推荐文章于 2024-07-22 18:52:16 发布

阅读量350

点赞数

分类专栏：算法进阶文章标签：聚类算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WslWslYYX/article/details/121061906

版权

算法进阶-聚类2

层次聚类方法

定义：对给定的数据集进行层次的分解，直到某种条件满足为止
分为：
1.凝聚的层次聚类:AGNES算法
– 一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，知道某个中介条件被满足
2.分裂的层次聚类：DIANA算法
– 采用自顶向下的策略，首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到达到了某个终结条件

AGENS

簇间距离：
1.最小距离：两个集合中最近的两个样本的距离
缺点：容易形成链状结构
2.最大距离：两个集合中最远的两个样本的距离
缺点：若存在异常值则不稳定
3.平均距离：
1.两个集合中样本间两两距离的平均值
2.两个集合中样本间两两距离的平方和

密度聚类方法

定义：只要样本点的密度大于某阈值，则将该样本添加到最近的簇中
优点：克服基于距离的算法只能发现“类圆形”（凸）的聚类的缺点，可发现任意形状的聚类，且对噪声数据不敏感。
缺点：计算密度单元的计算复杂度大，需要建立空间索引来降低计算量

DBSCAN算法

全名：Density-Based Spatial Clustering of Applicationns with Noise

定义：将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在有“噪声”的数据中发现任意形状的聚类
相关概念：
1.对象的 $\varepsilon-邻域$ ：给定对象在半径 $\varepsilon$ 内的区域
2.核心对象：对于给定的数目m，如果一个对象的 $\varepsilon-邻域$ 至少包含m个对象，则称该对象为核心对象
3.直接密度可达：给定一个对象集合D，如果p是在q的 $\varepsilon-邻域$ 内，而q是一个核心对象，我们说对象p从对对象q出发是直接密度可达的

4.密度可达：如果存在一个对象链 $p_1,p_2,...p_n$ ,其中

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
算法进阶--层次聚类

算法进阶-聚类2层次聚类方法AGENS密度聚类方法DBSCAN算法密度最大值聚类谱聚类拉普拉斯矩阵的类型层次聚类方法定义：对给定的数据集进行层次的分解，直到某种条件满足为止分为：1.凝聚的层次聚类:AGNES算法– 一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，知道某个中介条件被满足2.分裂的层次聚类：DIANA算法– 采用自顶向下的策略，首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到达到了某个终结条件AGENS簇间距离：1.最小距离：两个
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。