篇二之KMeans聚类算法及其优化
KMeans算法是原型聚类的一种,原型聚类是指基于一组原型进行初始化,然后再利用迭代的方式对原型进行更新求解
一、KMeans算法
K均值算法基于最小化平方误差的原则,所有簇的平方误差和如下:
μi是簇Ci的样本均值:
簇的平方误差和刻画了簇内样本的紧密程度,簇内样本距离越近,E值越小,该簇内样本相似度越高。所以便有了基于最小化平方误差和的原则,但是要找到样本集D的所有可能的划分,这是NP难问题,所以KMeans采用贪心策略。通过迭代的方式进行更新求解,具体算法步骤如下:
关键点:初始k个中心点的选取,以及k的取值,一般是根据先验确定k值,并且k个中心不要离得太近
优点:
(1)k-means算法是解决聚类问题的一种经典算法&#