【数据挖掘学习笔记】9.高级聚类方法

本文详细介绍了数据挖掘中的高级聚类方法,包括密度聚类(DBSCAN)、网格聚类(如STING)和图聚类(如SCAN算法、谱聚类)。密度聚类DBSCAN能发现任意形状的簇,但对参数敏感;网格聚类利用空间结构进行聚类,STING采用自顶向下方法;图聚类中,谱聚类通过计算图的特征值进行聚类。此外,还讨论了离群点检测的不同方法。
摘要由CSDN通过智能技术生成

一、密度聚类

基于距离的方法
– 适用于发现类球状的簇
– 在交通等领域,非球状簇的挖掘效果较差
– 判断是否“聚”的依据不仅仅有距离

基于密度进行聚类的思想
– 发现“密”的区域
– 判断密的区域的连通性
– DBSCAN(Density-Based Spatial Clustering of Applications with Noise)适应噪声的基于密度的空间聚类应用

对象的ε-临域

– 对象为中心、以ε为半径的空间(一定范围)

核心对象

– 如果一个对象的ε-临域至少包含最小数目MinPts个对象,则称该对象为核心对象(范围内点个数够多)

核心对象附近是比较“密”的

密的区域的连通性

直接密度可达
– 对于对象q和对象p,如果q是核心对象,p在q的ε-临域中,则称p是从q直接密度可达的。
密度可达
– 有对象链p1、p2、…pn,对于pi(1≤i≤ n-1),pi+1是从pi关于ε和MinPts直接密度可达的,则称pn是从p1密度可达的

密度相连
– 对于两个对象p1和p2,如果存在一个对象q,使得p1和p2都是从q关于ε和MinPts密度可达的,则称对象p1和p2是关于ε和MinPts密度相连的。

密度相连的对象闭集作为一个簇
– 对于一个簇C,任意两个对象oi,oj∈C,oi和oj是密度相连的,并且不存在对象om∈C和另一个对象on ∉C,om和on是密度相连的

基本过程(参数ε和MinPts )
– 初始化,所有对象均被标记为“未处理”
– 选择一个未处理的对象,判断其是否是核心对象
    • 如果不是,则标记为“已处理”;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值