算法名称: K-means 算法的适用场景 :无监督分类,目的是将数据划分为有意义或有用的簇,聚类算法的典型代表。
算法的基本逻辑:
(1)基本概念
簇:直观上来看簇就是一组一组聚集在一起的数据,簇中的对象是相似的。
质心:簇中所有数据的均值。
(2)核心任务
根据设定好的K,找出K个最优的质心,并将离这些质心最近的数据分别匹配到质心所代表的簇中去。
(3)操作步骤
第一步:选取初始质心:随机选取K个样本作为最初的质心,K的具体数字根据实际需求和经验决定;
第二步:生成簇:将样本逐个指派到与其最近的质心的分组,生成K个簇。常用欧式距离平方来判断距离的远近;
第三步:更新质心与簇:分别计算不同簇中样本点的平均值作为新的质心,并重新比较欧式距离平方,得到新的簇;
第四步:进行循环:再次计算质心,并生成簇,如果结果发生改变,则重复上一步;
第五步:得到结果:当迭代的质心不再发生变化,即每次新生成的簇一致时,迭代停止,聚类完成,得到聚类结果。
算法的优点:
(1)原理简单,容易实现;
(2)对于处理大数据