K均值算法的步骤、
- 选取初始聚类中心
- 通过计算距离进行聚类
- 重新计算聚类中心
- 重复2和3直到聚类中心不发生改变(或变化小于一定阈值)或者达到迭代次数上限。
K均值优缺点、
优点:1.原理简单,容易实现,收敛速度快,可解释性强;2.需要调节的参数较少(主要是聚类簇数K),且聚类效果好。
缺点:1.聚类簇数K不好把握,一般只能通过暴力搜索法来决定;2.只适合簇型数据,对其他类型数据聚类效果一般;3.当数据存在比较严重的类别不平衡时,聚类效果不好;4.当数据量比较大,计算量大,采用minBatch可以缓解,但可能会牺牲准确度。
K均值如何调优、
K均值如何改进、
- 随机选择K个聚类簇个数,存在很大的偶然性。可以使用改进版的kmeans++算法:a.随机选择第一个聚类簇中心点u1,b.然后计算各个样本点到该聚类中心的距离,选择距离最远的一个样本点作为第二个聚类簇中心u2,c.计算样本点到已有聚类簇中心距离,选择距离最远的样本点作为新的聚类簇中心,d.重复b和c直到找到K个聚类中心。
- 数据量非常大时,计算量非常大。可以使用miniBatch Kmeans:在做kmeans算法前先对大样本数据进行一个随机采样,对采样得到的样本使用kmeans聚类,进行多次miniBatch后进行多次kmeans聚类,最后选择最优的聚类簇。
K均值如何证明其收敛性
通过kmeans算法最大期望法,就可以说明EM收敛性等价于kmenas收敛性