聚类模型
1、层次聚类
2、原型聚类-K-means
3、模型聚类-GMM
4、EM算法-LDA主题模型
5、密度聚类-DBSCAN
6、图聚类-谱聚类
五、密度聚类-DBSCAN
DBSCAN的类表示是一簇密度可达的样本,相似性度量定义为密度可达,密度可达即为一类,属于硬划分。密度聚类是一种基于密度的聚类,其根据样本的空间分布关系进行聚类。一般来讲,用带参的模型来定义样本的分布可以看作是带参的密度估计,比如高斯混合模型,高斯判别分析;用无参的模型来描述样本的分布称为无参密度估计,比如直方图,核密度估计,山峰聚类,DBSCAN,meanshift。
假设我的样本集是 (x1,x2,...,xm) ( x 1 , x 2 , . . . , x m ) ,在DBSCAN中为了描述样本分布的关系,定义了如下几个概念:
1) ϵ ϵ -邻域:对于 xj∈D x j ∈ D ,其 ϵ ϵ -邻域包含样本集 D D 中与 的距离不大于 ϵ ϵ 的子样本集,即 Nϵ(xj)={ xi∈D|distance(xi,xj)≤ϵ} N ϵ ( x j ) = { x i ∈ D | d i s t a n c e ( x i , x j ) ≤ ϵ } 这个子样本集的个数记为 |N∈(xj)| | N ∈ ( x j ) |
2)核心对象:对于任一样本 xj∈D x j ∈ D ,如果其 ϵ ϵ -邻域对应的 N∈(x