聚类模型
1、层次聚类
2、原型聚类-K-means
3、模型聚类-GMM
4、EM算法-LDA主题模型
5、密度聚类-DBSCAN
6、图聚类-谱聚类
三、模型聚类-高斯混合
高斯混合的类表示是一个高斯模型,相似性度量定义为服从类 cj c j 高斯分布 μ,Σ μ , Σ 的概率(Kmeans的相似度量是聚距离度量),所以高斯混合聚类也可以看作是有参的密度聚类。高斯混合假设类之间服从伯努利分布,样本在某一类下服从高斯分布,也就是说每个样本独立服从多元高斯分布。为了使得所有样本的概率最大化,即最大化对数似然函数:
L(Φ,μ,Σ)=log∏i=1mP(x(i))=∑i=1mlog(P(x(i);Φ,μ,Σ))=∑i=1mlog∑z(i)=1k(P(x(i)|z(i);μ,Σ)P(z(i);Φ)) L ( Φ , μ , Σ ) = l o g ∏ i = 1 m P ( x ( i ) ) = ∑ i = 1 m l o g ( P ( x ( i ) ; Φ , μ , Σ ) ) = ∑ i = 1 m l o g ∑ z ( i ) = 1 k ( P ( x ( i ) | z ( i ) ; μ , Σ ) P ( z ( i ) ; Φ ) )
也就是说假设类之间服从一个伯努利分布:
P(z(i)=cj)=P(z(i);Φ)=Φj,∑j=1kΦj=1,j=1,2..k P ( z ( i ) = c j ) = P ( z ( i ) ; Φ ) = Φ j , ∑ j = 1 k Φ j = 1 , j = 1 , 2.. k
样本在类 z(i) z ( i ) 下的条件概率服从高斯分布:
P(x(i)=z(i)|