一、密度聚类
基于距离的方法
– 适用于发现类球状的簇
– 在交通等领域,非球状簇的挖掘效果较差
– 判断是否“聚”的依据不仅仅有距离
基于密度进行聚类的思想
– 发现“密”的区域
– 判断密的区域的连通性
– DBSCAN(Density-Based Spatial Clustering of Applications with Noise)适应噪声的基于密度的空间聚类应用
对象的ε-临域
– 对象为中心、以ε为半径的空间(一定范围)
核心对象
– 如果一个对象的ε-临域至少包含最小数目MinPts个对象,则称该对象为核心对象(范围内点个数够多)
核心对象附近是比较“密”的
密的区域的连通性
直接密度可达
– 对于对象q和对象p,如果q是核心对象,p在q的ε-临域中,则称p是从q直接密度可达的。
密度可达
– 有对象链p1、p2、…pn,对于pi(1≤i≤ n-1),pi+1是从pi关于ε和MinPts直接密度可达的,则称pn是从p1密度可达的
密度相连
– 对于两个对象p1和p2,如果存在一个对象q,使得p1和p2都是从q关于ε和MinPts密度可达的,则称对象p1和p2是关于ε和MinPts密度相连的。
密度相连的对象闭集作为一个簇
– 对于一个簇C,任意两个对象oi,oj∈C,oi和oj是密度相连的,并且不存在对象om∈C和另一个对象on ∉C,om和on是密度相连的
基本过程(参数ε和MinPts )
– 初始化,所有对象均被标记为“未处理”– 选择一个未处理的对象,判断其是否是核心对象
• 如果不是,则标记为“已处理”;