聚类模型
1、层次聚类
2、原型聚类-K-means
3、模型聚类-GMM
4、EM算法-LDA主题模型
5、密度聚类-DBSCAN
6、图聚类-谱聚类
二、原型聚类-KMeans
KMeans的类表示是聚类中心点,以点 xi x i 来表示类,相似性度量同样可以采用常用的距离度量。根据类紧致性准则定义失真函数为所有样本点到该样本所在类中心的失真程度和最小。
J(c)=∑i=1m||x(i)−c(i)j||2,i=1,2..m,j=1,2..k J ( c ) = ∑ i = 1 m | | x ( i ) − c j ( i ) | | 2 , i = 1 , 2.. m , j = 1 , 2.. k
其中 c(i)j c j ( i ) 表示第 i i 个样本所属的类。可以看出Kmeans算法只考虑了类内相似性,没有考虑类间相似性。对于Kmeans算法的求解采用EM算法,先假设类中心 ,然后根据相似性度量来划分所有样本点到 k k 类中(Kmeans是一种硬划分),根据划分后的样本点重新更新 类的类中心 c21,c22,..,c2k c 1 2 , c 2 2 , . . , c k 2 ,不断的迭代至稳定(类中心不再变化)。
KMeans算法流程:
1)随机初始化类中心