【数据挖掘学习笔记】9.高级聚类方法

最新推荐文章于 2024-05-30 20:45:00 发布

sigmeta

最新推荐文章于 2024-05-30 20:45:00 发布

阅读量2k

点赞数 3

分类专栏：数据挖掘学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sigmeta/article/details/80787220

版权

本文详细介绍了数据挖掘中的高级聚类方法，包括密度聚类（DBSCAN）、网格聚类（如STING）和图聚类（如SCAN算法、谱聚类）。密度聚类DBSCAN能发现任意形状的簇，但对参数敏感；网格聚类利用空间结构进行聚类，STING采用自顶向下方法；图聚类中，谱聚类通过计算图的特征值进行聚类。此外，还讨论了离群点检测的不同方法。

摘要由CSDN通过智能技术生成

一、密度聚类

基于距离的方法
– 适用于发现类球状的簇
– 在交通等领域，非球状簇的挖掘效果较差
– 判断是否“聚”的依据不仅仅有距离

基于密度进行聚类的思想
– 发现“密”的区域
– 判断密的区域的连通性
– DBSCAN（Density-Based Spatial Clustering of Applications with Noise）适应噪声的基于密度的空间聚类应用

对象的ε-临域

– 对象为中心、以ε为半径的空间（一定范围）

核心对象

– 如果一个对象的ε-临域至少包含最小数目MinPts个对象，则称该对象为核心对象（范围内点个数够多）

核心对象附近是比较“密”的

密的区域的连通性

直接密度可达
– 对于对象q和对象p，如果q是核心对象，p在q的ε-临域中，则称p是从q直接密度可达的。
密度可达
– 有对象链p1、p2、…pn，对于pi（1≤i≤ n-1），pi+1是从pi关于ε和MinPts直接密度可达的，则称pn是从p1密度可达的

密度相连
– 对于两个对象p1和p2，如果存在一个对象q，使得p1和p2都是从q关于ε和MinPts密度可达的，则称对象p1和p2是关于ε和MinPts密度相连的。

密度相连的对象闭集作为一个簇
– 对于一个簇C，任意两个对象oi，oj∈C，oi和oj是密度相连的，并且不存在对象om∈C和另一个对象on ∉C，om和on是密度相连的

基本过程（参数ε和MinPts ）

– 初始化，所有对象均被标记为“未处理”
– 选择一个未处理的对象，判断其是否是核心对象
• 如果不是，则标记为“已处理”；

最低0.47元/天解锁文章

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。