聚类方法归类:划分法、基于模型、基于密度、层次法、基于网格
模型参数:需要求出来的目标
隐含参数:不需要求,但如果知道会有利于求出目标
基于分割的聚类
一、K-Means
算法步骤
1.随机初始化几个点(可随意设置)
2.将其余各点根据到初始点的距离,分配到这些点上,形成初始分类
3.找到每个类的中心点(到类内其它点距离均值最小的点),作为新的初始点
4.重复2、3步,直到中心点不再变化(或变化很小)
算法复杂度:O(tkn),t为迭代次数(一般5、6次),k为初始选取的点数(即分类数),n为数据集的规模
缺点:K-Means对只能处理分布简单的数据,对数据分布有要求;对噪声和outliner(离群点)敏感;对初始中心点敏感;
优点:收敛速度快
二、Sequential Leader Clustering
只处理一遍,不需要设置K值
1.设置一个阈值
2.来一个点,计算它与已有点的距离,小于阈值即归为一类。否则自立门户,形成新的一类
基于模型的聚类、基于密度的聚类
一、EM算法(期望最大化算法ExpectationMaximuzation),基于模型
基于模型的