文章目录
1. 密度聚类
1.1 概念
- "别名":
基于密度的聚类
- "英文":
Density-based clustering
- "思想":
此类算法假设聚类结构能够通过样本分布的紧密程度确定
- "解释思想":
就是说,密度聚类算法从样本的密度角度来考察样本之间的可连续性(样
本之间可连续性代表簇的纯度越纯),并基于可连续样本不断拓展聚类簇,以
获得最终的聚类结果。
- "欧式距离":
在本节中,默认距离为欧式距离。
1.2 DBSCAN算法
- dbscan思想
DBSCAN是一种著名的密度聚类算法,它基于一组"邻域(neighborhood)参数",来刻画样本分布的紧密程度。
- 重要概念
已知 | D={ x 1 , x 2 , . . . , x m x_1,x_2,...,x_m x1,x2,...,xm} | 性质 |
---|---|---|
ε \varepsilon ε-邻域 | 包含样本集D中与 x j x_j xj的距离不大于 ε \varepsilon ε的样本,即 N ε ( x j ) = { x i ∈ D ∣ d i s t ( x i , x j ) ≤ ε } N_{\varepsilon}(x_j)=\{x_i\in D|dist(x_i,x_j)\leq\varepsilon\} Nε(xj)={ xi∈D∣dist(xi,xj)≤ε} | |
核心对象(core object) | 若 x j x_j xj的 ε \varepsilon ε-邻域至少包含MinPts个样本,则 x j x_j xj是一个核心对象。即 ∣ N ε ( x j ) ∣ ≥ M i n P t s |N_{\varepsilon}(x_j)|\geq MinPts ∣Nε(xj)∣≥MinPts | |
密度直达(directly density-reachable) | 若 x j x_j xj位于 x i x_i xi的 ε \varepsilon ε-邻域,且 x i x_i xi是核心对象,则称 x j x_j xj由 x i x_i xi密度直达 | 不满足对称性 |
密度可达(density-reachable) | 对 x i x_i xi与 x j x_j xj,若存在样本序列 p 1 , p 2 , . . . , p n , 其 中 p 1 = x i , p n = x j 且 p i + 1 由 p i 密 度 直 达 p_1,p_2,...,p_n,其中p_1=x_i,p_n=x_j且p_{i+1}由p_i密度直达 p1,p2,...,pn,其中p1=xi,pn=xj |